`

深度学习框架下高频数据因子挖掘

创建于 更新于

摘要

本报告基于高频价量数据,通过将高频信息低频化为日频因子,利用深层全连接神经网络提取股票特征,进而构建基于回归的特征组合模型,实现高频数据因子的有效挖掘。实证结果显示,该深度学习模型提取的因子具有较高的IC水平,样本外IC均值约为7.7%。在换手率约束下,构建的选股组合在中证500和中证1000成分股中均取得了显著的超额收益,年化超额收益率分别达到26.0%和42.4%,超额收益的夏普比率也均超过2.9,显示了策略的稳健性和较强的选股能力。报告强调策略的实时更新优势及潜在的市场风险因素,为高频因子挖掘提供了新的深度学习框架路径[page::0][page::3][page::8][page::14][page::19][page::20][page::21].

速读内容

  • 高频数据因子优势与挑战 [page::0][page::3]

- 高频数据量巨大,信息密度高,调仓周期短,独立样本多,有助于提升因子有效性。
- 高频数据噪声较大,需采用机器学习方法提取有用特征。
  • 自动化特征工程方法论 [page::4][page::5][page::6]

- 梯度提升树(GBDT)与逻辑回归组合用于特征生成,神经网络可自动学习低阶和高阶特征。
- 深度学习适合大规模、高维高频数据建模,常用结构有全连接神经网络、循环神经网络(RNN)和卷积神经网络(CNN)。



  • 深度学习结构及训练机制 [page::7][page::8]

- 输入层包含76个因子(73个高频低频化因子及市值等3个低频因子)。
- 网络包括7层,隐含层节点数为128、128、64、64、32,输出层3个节点对应上涨、平盘、下跌。
- 采用交叉熵损失函数,反向传播更新参数。
  • 高频信息低频化因子列表和类别 [page::9][page::10][page::11][page::12]

- 因子涵盖日内价格统计量,成交量分布,盘前价量,资金流向(机构、中户、散户),大成交量相关因子等。
- 相关因子详细且多维,体现高频价量丰富的市场信息。
  • 人工因子表现总结 [page::13]

| 因子名 | 种类 | 5日IC | 10日IC |
|------------------|--------------|--------|---------|
| turnover5D | 低频风格因子 | -7.76% | -9.57% |
| amountbuysmall | 资金流向因子 | -7.60% | -8.90% |
| amountsell
med | 资金流向因子 | -7.55% | -8.67% |
| amountsellsmall | 资金流向因子 | -7.53% | -8.57% |
| amountbuy
med | 资金流向因子 | -6.99% | -8.14% |
| amountselllarge | 资金流向因子 | -6.40% | -7.40% |
| amountbuy
large | 资金流向因子 | -6.15% | -6.90% |
| realvarlarge | 大成交量因子 | -5.87% | -6.34% |
| amountbuy
exlarge | 资金流向因子 | -5.52% | -5.92% |
| real_upvar | 价格相关因子 | -5.52% | -5.93% |
| … | … | … | … |
- 13个因子的5日IC绝对值超过5%,28个超过3%。
  • 深度学习特征表现 [page::14][page::15][page::16][page::17]

- 32个顶层隐含层节点特征中,有12个正IC均值,20个负,样本外绝对IC均值约7.7%。
- 以hf3为例,特征非负,值多分布于0附近,有良好的反转预测能力。





  • 机器学习特征组合模型回测与表现 [page::17][page::18][page::19][page::20]

- 采用逐期回归对深度学习提取的特征进行组合,动态更新回归系数。
- 2019年样本外IC均值约7.6%,波动率7.8%,表现稳定。



- 中证500成分股选股,在20%换手率限制下,年化超额收益率26.0%,夏普2.99,年换手率48.6。
| 换手率上限 | 10% | 20% | 30% | 40% |
|------------|---------|---------|---------|---------|
| 多头收益率 | 47.54% | 51.53% | 49.64% | 48.21% |
| 基准收益率 | 26.00% | 26.00% | 26.00% | 26.00% |
| 超额收益率 | 21.54% | 25.53% | 23.64% | 22.21% |
| 最大回撤 | -6.00% | -5.09% | -5.28% | -7.54% |
| 超额夏普 | 2.88 | 2.99 | 2.59 | 2.44 |
| 年化换手率 | 24.39 | 48.59 | 72.89 | 97.19 |
- 中证1000成分股选股,在20%换手率限制下,年化超额收益率42.4%,夏普3.37,年换手率48.6。


| 换手率上限 | 10% | 20% | 30% | 40% |
|------------|---------|---------|---------|---------|
| 多头收益率 | 62.88% | 67.50% | 77.74% | 81.41% |
| 基准收益率 | 25.07% | 25.07% | 25.07% | 25.07% |
| 超额收益率 | 37.81% | 42.43% | 52.67% | 56.34% |
| 最大回撤 | -5.60% | -6.74% | -8.73% | -10.15% |
| 超额夏普 | 3.07 | 3.37 | 3.97 | 4.02 |
| 年化换手率 | 24.39 | 48.59 | 72.89 | 97.19 |
  • 风险提示及展望 [page::0][page::21]

- 交易行为变化及因子拥挤可能导致策略失效。
- 后续可尝试CNN、RNN等神经网络结构深入挖掘高频时间序列特征。

深度阅读

深度学习框架下高频数据因子挖掘——广发证券深度研究报告详尽分析



---

1. 元数据与报告概览



报告标题:《深度学习框架下高频数据因子挖掘》

系列:深度学习研究报告之七

作者/团队:罗军、安宁宁、史庆盛等广发证券发展研究中心研究人员(详见页尾人员名单)

发布时间:不明确,材料内容最新数据覆盖至2021年

研究主题:利用深度学习技术对高频股价交易数据进行因子挖掘和投资组合构建,探索深度学习与高频量化数据结合的选股策略

核心论点及评级结论:
  • 高频价量数据因量大且噪声高,通过深度学习等机器学习技术可挖掘高质量的选股因子,超越传统低频因子表现。
  • 报告以全连接深层神经网络为主模型,基于低频化处理的高频因子提取特征,并结合回归模型构建特征组合,实现日频选股。
  • 实证结果显示,该模型特征平均信息系数(IC)达7.6%以上,构建的多头组合策略在中证500和中证1000成分股内均取得显著超额收益(年化超额收益率分别达到26.0%和42.4%,夏普比率均超过2.9)。
  • 报告强调模型具有良好的实时适应性,但提示策略并非万无一失,未来市场结构和参与者变化可能导致其失效。


总体上,报告旨在传递基于深度学习方法,挖掘高频价量数据因子的新一代量化选股策略,具备较强预测能力和超额收益潜力。[page::0,20,21]

---

2. 逐节深度解读



一、高频因子思考



(一)从低频信息到高频信息



报告提出在当前A股机构化和量化趋势下,传统低频因子(如日频价量、财务指标)已广泛被市场采用,因子拥挤导致预期收益率下降。因子拥挤指当某因子表现良好时资金大量涌入,其定价错误被修正,导致因子收益减少,从而推动因子更新迭代的必要性。

高频价量数据与低频数据相比,具备更大数据体积(如2020年市场分钟行情数据压缩后约12GB,且Level 2行情数据更大)、更丰富信息量以及独立样本数量显著增加的优势(例如,年内每日为样本,提升了因子检验的独立性和有效性)。

同时,高频数据噪声比重大,不能直接作为选股因子,需借助信号变换和机器学习提取有效特征。基于高频数据构建的因子与低频财务指标相关性较低,更易呈现多样性和差异化。综上,高频因子的开发空间及潜力大于传统因子,但难点在于数据处理和噪声提取。

作者将机器学习视为挖掘高频因子的有力工具,可从海量复杂数据中识别潜在信号和规律,克服传统因子构建的局限。[page::3]

(二)自动化特征工程



特征工程定义为在给定数据和任务基础上通过加工、组合原始变量构建有含义的新特征的过程。金融中经典例子是BMI指数,从身高体重衍生特征更加有效评估健康状况。

领域知识是提升特征构造效率的关键。报告举例量化因子如盈利、成长、价值等均是结合经济学逻辑与市场行为设计。

向高频数据迁移后,数据维度升高、噪声增强、信息密度降低,专家主导的传统特征工程受限,机器学习能优势体现,因为其擅长高维数据和复杂模式学习。

报告特别提到遗传规划算法优化因子表达及机器学习特征生成技术(PCA、GBDT、深度学习)。其中,PCA虽常用但线性且无监督,提取特征有限;GBDT用于特征自动化构造,作为点击率模型先驱示意图展示了决策树叶节点编码特征输入逻辑回归。

深度学习则利用多层次非线性结构自动提取特征。低层网络捕获低阶特征,高层构造高阶复合特征,层级特征自动激活,适合大规模高频数据。报告进一步介绍几类神经网络结构:
  • 全连接神经网络(FCNN):适合截面数据学习,需先降频高频时间序列至低频因子。
  • 循环神经网络(RNN)卷积神经网络(CNN):适合时间序列及局部时空模式,能直接对高频时间序列数据建模。


本报告采用了FCNN方案,先对高频数据进行日频低频化处理,再用深度网络发掘高阶特征。[page::4,5,6]

---

二、深度学习因子挖掘模型



(一)深度学习模型结构



模型输入为76维日频因子,包括73个基于高频数据低频化处理的特征及3个低频风格因子(市值、市值5日均换手率、5日收益率)。网络为7层全连接深层神经网络,设置如下:

| 层名称 | 说明 | 节点数 |
|--------|----------|--------|
| X | 输入层 | 76 |
| H1 | 隐含层1 | 128 |
| H2 | 隐含层2 | 128 |
| H3 | 隐含层3 | 64 |
| H4 | 隐含层4 | 64 |
| H5 | 隐含层5 | 32 |
| Y | 输出层 | 3 |

输出层采用3分类结构,预测股票未来5日收益率分布的三个类别:上涨(前10%收益率股票)、平盘(中间10%)、下跌(后10%)。输出通过softmax转化为概率。训练目标为交叉熵损失函数,采用误差反向传播优化模型参数。

数据处理方面,剔除新股(<20交易日)、ST股、停牌和涨跌停样本,以T+1日开盘价为未来收益基准,实现5日收益率预测。标签根据未来5日收益率排序后打标上升、中性、下降样本。

该架构解决了复杂、高维非线性股票因子与未来收益关系的拟合问题,能够自动发掘隐含的多维度复合特征。[page::7,8]

(二)深层神经网络特征组合选股模型



深度网络提取特征后,使用基于回归的特征组合方法验证选股能力。即对第t期市场股票的收益率执行截面回归:

$$
ri^t = rm^t + \sum{k=1}^{n} x{ik}^t \betak^t + \varepsiloni
$$

其中,$x{ik}^t$ 表示因子k期初值,$\betak^t$为该因子当期解释股票收益率能力,$rm^t$为截距。

通过历史T个交易日滚动均值计算因子系数期望:

$$
E^s[\beta
k] = \frac{1}{T} \sum{\tau=1}^T \betak^{s-\tau}
$$

未来$s$期残差收益预测为:

$$
\hat{r}i^s = \sum{k=1}^n x{ik}^s E^s[\betak]
$$

简化省略截距项,预测股票相对收益率,进而构建股票组合。

特征组合算法每日更新回归系数,保持对市场特性紧密跟随,提高模型实时性。本方法有效结合了深度学习非线性特征提取与线性模型稳定解释能力,弥补单一模型局限。

特征组合流程示意图(图5)显示数据流由高频价量数据开始,通过人工因子构建、深度学习模型、机器学习因子提取,最终实现组合选股。[page::8,9]

---

三、高频信息低频化



报告详细罗列了基于高频数据在日频层面构建的多类因子:
  1. 日内价格相关因子(表2,9个因子)


包括日内收益率、收益率的方差、峰度、偏度,上行与下行方差占比,趋势强度等,反映价格波动及形态特征。
  1. 成交量相关因子(表3,12个因子)


分析不同时间段成交量占比、成交量与价格/收益率的相关性,研究成交活跃期资金动态。
  1. 盘前价量因子(表4,7个因子)


主要指标包括隔夜收益率、开盘价相对集合竞价最高/最低价的盈亏、集合竞价振幅,揭示盘面资金博弈。
  1. 资金流向因子(表5,21个因子)


利用Level 2数据区分散户/中户/大户/机构资金买卖金额及净买入量,反映投资者行为结构。
  1. 特定时段因子


针对开盘后半小时与收盘前半小时价格和成交信息构建的因子(表6),及大成交量时刻的价格统计量(表7),捕捉关键交易时段的信息优势。

以上底层因子通过人工构建和领域知识结合,实现高频数据有效汇总为日频低维特征,便于深度模型使用。[page::9,10,11,12]

---

四、实证分析



(一)人工因子表现



基于2016年-2021年数据,统计76个候选因子在5日和10日的IC表现,发现部分资金流向因子和大成交量相关因子表现突出,多因子IC绝对值超过5%的有13个,超过3%的有28个,体现原始构建因子具备一定选股能力。

其中5日换手率(turnover5D)IC达-7.76%,资金流向类因子如机构与散户买卖金额表现显著。这为后续模型提供优质输入特征。[page::13]

(二)深度学习特征概况



深度神经网络最终输出层H5包含32个特征(因子hf0~hf31),在2016-2018年为样本内,2019-2020年为样本外。整体IC均值绝对值为样本内8.6%,样本外为7.7%,大多数特征IC均保持稳定,5个特征IC低于5%(占16%),说明深度模型所提取特征具有较高且稳定的预测能力。

以样本外表现较好的hf3因子为例:
  • 其取值分布偏向非负,多数集中于0附近,最大值不超过3,符合ReLU激活函数输出特点。
  • 因子值处于全样本区间内震荡,尤其2017年中后期开始稳定提升。
  • 因子IC呈负值,说明hf3主要具备反转型预测能力。
  • 多头组合(选择hf3最低10%因子值的股票)在2019-2020年累计超额收益约50%,平稳显著,空头组合表现较差,体现该因子负相关alpha较强。[page::14,15,16,17]


(三)特征组合模型表现



回归模型基于H5层32特征动态更新因子系数,计算预测收益率。2019年以来样本外IC均值7.6%,标准差7.8%,表现较好。

策略多空组合收益稳定,且分档组合表现递增,表明预测能力良好,能有效区域分层股票风险收益特征。

在中证500和中证1000指数成分股内选股,保持行业、规模、流动性中性,交易考虑0.03%交易成本,日频调仓:
  • 中证500成分股显示换手率20%时,年化超额收益率26%,夏普3,累计收益超过基准50%以上,换手率调整区间(10%-40%)均维持较高收益和夏普。
  • 中证1000成分股更优,20%换手率年化超额收益达42.4%,夏普3.37,换手率扩展提升策略表现更显著。


整体实证充分验证了深度学习模型结合高频数据挖掘的因子在实际中获取持续超额收益的能力。[page::17,18,19,20]

---

3. 图表深度解读



关键图表解析


  • 图1(梯度提升树特征提取示意图,page=5)


展示了GBDT如何通过遍历决策树,叶节点编码样本分组特征,提供给后续线性模型使用。作为非线性特征工程的经典示范,彰显机器学习自动抽取复合特征的能力。
  • 图2(深度学习特征提取示意图,page=5)


简单示意深度学习分层结构切分低阶与高阶特征的过程,强调深度网络自动提取高级特征的优势。
  • 图3 & 图4(全连接和循环神经网络示意,page=6)


详细解释不同神经网络结构适用场景,报告采全连接网络作为基线,未来考虑时间序列模型捕捉动态依赖。
  • 图5(深度学习高频因子挖掘流程,page=9)


数据流清晰展示从高频数据到最终组合策略的路径,体现人工因子构建+深度学习特征挖掘+回归系数滚动组合的设计理念。
  • 图6(机器学习特征样本内外IC情况,page=14)


每个H5层特征的IC值显示大部分均显著不同于零,且样本外IC与样本内IC趋于一致,证明模型泛化能力。
  • 图7和图8(特征hf3因子分布图和直方图,page=15)


因子值集中于低区间,非负分布符合ReLU输出,体现稳定统计特性。
  • 图9和图10(hf3因子走势及IC走势,page=16)


该因子在股票个体持续呈现波动趋势,反转性强,IC波动但整体趋势稳定,验证其预测能力。
  • 图11(hf3多空收益,page=17)


多头组合净值曲线显著跑赢基准且表现稳健,空头组合表现弱于基准,体现因子负alpha属性。
  • 图12-14(特征组合模型IC走势、多空收益及分档收益,page=17-18)


特征组合模型IC整体为正,累积稳步增长。多空收益分布平滑,分档收益递增,表明策略对股票相对收益排序能力较强。
  • 图15、16(中证500与1000成分股多头组合净值表现,page=19-20)


两大指数成分股选股策略均显著跑赢基准指数,净值增长显著。

表格解读


  • 表1(深度学习模型结构,page=7)


明确神经网络各层节点数设置,结构合理平衡模型复杂度与计算效率。
  • 表2-7(各类高频低频因子列表,page=9-12)


全面描述因子类型及构建原理,涵盖价格、成交量、资金流、特定时段及大成交量特征,是深度模型输入基础。
  • 表8(人工因子表现统计,page=13)


展示原始76因子中选股IC表现显著优异部分,资金流向因子解释力突出。
  • 表9-10(不同换手率限制下成分股选股收益统计,page=19-20)


不同换手率下的年化收益、夏普率及最大回撤,显示策略收益稳定且对换手率敏感,换手率提高带来收益和夏普率提升。

---

4. 估值分析



本报告并无传统企业估值分析内容,核心为量化策略因子挖掘与投资组合构建。研究中体现的"估值"更多指基于IC的因子有效性及组合超额收益评价。模型通过IC衡量因子解释能力,通过多空组合收益评估选股策略表现。

无现金流贴现、无市盈率倍数等传统公司估值方法论。[page::7,8,14,17-20]

---

5. 风险因素评估



报告明确风险提示:
  • 策略模型并非保证长期有效。
  • 市场结构演变、交易行为变动或市场参与者结构类似度提高,可能导致因子失效。
  • 高频数据特征具有一定噪声,模型泛化能力有限,过度拟合风险存在。
  • 换手率控制对策略表现影响显著,交易成本亦为重要风险因素。


报告未深入阐述具体缓解措施,仅依靠模型滚动训练及多特征组合提升稳健性。[page::0,21]

---

6. 批判性视角与细微差别


  • 模型设计侧重全连接网络,未充分利用处理时序动态的RNN/CNN架构,尽管文中提及未来可扩展。当前模型对时间序列信息建模能力较弱,可能导致高频动态信息价值未被完全挖掘。
  • 因子构建依赖低频化高频数据,降频处理可能损失部分高频信息的时序细节。
  • IC指标常用于选股因子表达能力,但数值级别(7-8%)虽优于传统因子,但相对较小,策略实际交易仍面临较大噪声影响,策略稳定性需持续验证。
  • 多空组合表现中空头端表现较弱,显示部分因子具有较强反转性质且非均衡收益结构,投资者需注意风险偏好匹配。
  • 报告强调换手率限制与交易成本,但未详述在极端市场波动期的策略表现及流动性冲击风险。
  • 由于报告保密策略细节和具体特征定义,外部读者难以完全复现和验证。
  • 报告表达较为谨慎,没有过度承诺,符合专业学术规范。[page::3-21]


---

7. 结论性综合



本报告系统阐释了利用深度学习方法对高频交易数据进行因子挖掘的理论基础、方法设计和实证验证过程。研究指出:
  • 高频数据因体量大、维度高且噪声多,传统低频模型难以充分挖掘其潜在价值,机器学习,特别是深度学习技术,在特征自动挖掘方面展现出独特优势。
  • 报告选用全连接深层神经网络架构,输入通过人工构建的多维低频化高频因子,输出则分类化未来5日收益表现,训练结合交叉熵损失函数优化。
  • 结合线性回归方法对深度学习模型特征进行动态回归组合,日频更新因子权重,实现高效截面预期收益预测。
  • 实证结果通过稳定正向的IC水平、高度显著的多空组合收益和超额累计收益,验证模型强大的选股能力。中证500及1000成分股策略均展现出年化超额收益20%以上且夏普比率接近3以上的优异表现。
  • 不同换手率限制显示策略收益稳健,换手率提升带来更高超额收益,但同时增加交易频率和成本。
  • 报告对风险披露充分,强调模型不保证长期有效性,市场结构及参与者行为的变化可能削弱策略表现。
  • 未来研究方向建议引入RNN、CNN等更复杂时序模型,以捕获高频数据更多动态特征。


从图表角度,重要图表如图6(H5层特征IC分布)、图12(特征组合IC走势)、图15-16(中证指数多头策略净值走势)均强烈支持模型具备实际应用价值。策略回测在多变市场环境里表现出较好稳定性和显著超额收益,体现了深度学习高频因子挖掘的潜力和实际效益。

综上,报告为深度学习在高频量化选股领域的应用提供了系统方法论、充分实证和战略价值,是该领域重要参考资料。[page::0-21]

---

# 以上即为《深度学习框架下高频数据因子挖掘》报告的详尽解析,涵盖报告结构、方法、数据、图表、实证和风险,力求提供专业而全面的理解。

报告