基于深度学习的高频数据因子挖掘
创建于 更新于
摘要
本报告利用深度学习技术,在将高频价量数据低频化后,采用7层全连接神经网络模型提取股票特征,共获得32个深度学习因子。实证结果显示,hf18因子在创业板股票池多头年化收益率达27.25%,超越创业板指数25.50%;hf13因子在中证1000股票池多头年化收益率为11.25%,超越指数7.24%。这些因子体现出较强的独立性和选股能力,显示深度学习在高频数据因子挖掘中的有效性与优势[page::0][page::7][page::21]
速读内容
- 高频数据因子挖掘优势与挑战:高频价量数据体量庞大,信息密度低且噪声高,挖掘难度较大。相较于传统低频因子,高频因子因调仓周期短,独立样本多,具有更大提升潜力。机器学习方法,尤其深度学习在特征自动提取方面优势明显,能够在高维复杂数据中捕捉有效信号[page::3].
- 自动化特征工程方法论:包括基于领域知识设计因子、遗传规划优化表达式及主成分分析、GBDT和深度学习等机器学习模型自动生成特征。GBDT与逻辑回归结合的示意图(图1)和深度学习特征提取示意图(图2)说明特征转换和抽象过程[page::4][page::5].


- 深度学习模型结构:采用7层全连接神经网络,输入层为55个代表高频日频因子的变量,输出层3节点表示未来股票5个交易日收益率的三类趋势(上涨、平盘、下跌)。采用ReLU激活函数和softmax输出,多类交叉熵作为损失函数优化模型[page::7][page::8].
- 高频人工因子体系:共55个因子涵盖五大类指标:日内价格相关因子(如收益率方差、峰度等)、成交量相关因子(如不同半小时成交比率等)、盘前价量因子、特定时段采样因子(开盘后半小时、收盘前半小时)、大成交量相关因子。各类因子在创业板和中证1000均有表现统计[page::8][page::9][page::10].
- 高频人工因子表现(创业板)摘要表:
| 因子名 | 类别 | RankIC | 多头年化收益率 | 多空年化收益率 |
|----------------|--------------|---------|----------------|----------------|
| Amihudilliq | 成交量相关因子 | 8.92% | 27.91% | 39.72% |
| realkurtosis | 日内价格相关因子 | -3.74% | 15.12% | 5.85% |
| ratiorealvarlarge | 大成交量相关因子 | -5.98% | 14.71% | 16.94% |
- Amihudilliq因子表现最佳,多头收益最高[page::11].
- 高频人工因子表现(中证1000)摘要表:
| 因子名 | 类别 | RankIC | 多头年化收益率 | 多空年化收益率 |
|---------------|--------------|---------|----------------|----------------|
| realkurtosis | 日内价格相关因子 | -5.06% | 10.76% | 15.15% |
| Amihudilliq | 成交量相关因子 | 6.57% | 10.07% | 22.11% |
- realkurtosis和Amihudilliq因子表现突出[page::12].
- 深度学习提取的32个特征因子表现(创业板):
| 因子名 | RankIC | 多头年化收益率 | 多空年化收益率 |
|--------|----------|----------------|----------------|
| hf18 | -6.79% | 27.25% | 39.44% |
| hf2 | -8.43% | 18.24% | 53.21% |
- hf18因子选股能力最为突出,超越多数人工因子表现[page::14].
- 深度学习因子相关性分析:创业板前10个最佳深度学习因子相关性较低,显示出较好的多样性;与55个人工因子的相关性低,说明深度学习因子提供了新的独立信息[page::15].
- hf18因子详细分析(创业板):
- 分档效果显著,第一档多头年化收益率高达27.25%,相较创业板指超额25.50%,信息比率达1.04。
- 年度表现稳定,2021年以来负RankIC占比超过85%,2023年多头收益率高达39.40%。


- 相关年度收益风险指标详见表12-14[page::16][page::17].
- 深度学习特征因子表现(中证1000):
- hf13为表现最优特征,年化收益率11.25%,RankIC 6.63%, 超过同期指数7.24%。
- 前10深度学习因子间相关性较低,且与高频人工因子相关性低,呈现信息增益。


- 年度RankIC与收益表现稳健,详细数据见表19-20[page::19][page::20].
- 量化策略核心思想:
- 利用高频数据构建55个人工高频因子,低频化处理后作为神经网络输入。
- 通过7层深度神经网络学习股票未来涨跌趋势,输出3分类概率。
- 训练目标为最大化分类正确率(交叉熵损失优化)。
- 通过神经网络学习获得32个深度学习因子,筛选表现优异因子(如hf18、hf13)进行多头策略实际测试。
- 策略采用每5个交易日调仓,计费双边千三,覆盖创业板和中证1000股票池。
- 回测期间3年,策略超额收益显著,且深度学习因子与传统因子相关性低,增强组合多样性与抗风险能力[page::0][page::7][page::14][page::21].
深度阅读
报告分析:基于深度学习的高频数据因子挖掘(多因子 Alpha 系列报告之五十一)
---
1. 元数据与概览
报告标题: 基于深度学习的高频数据因子挖掘
作者/分析师: 陈原文、安宁宁、罗军等,均来自广发证券发展研究中心
发布时间: 2023年8月(参考权益型基金月报2023-08-07)
发布机构: 广发证券发展研究中心
研究主题: 利用深度学习技术在高频价量数据中挖掘选股因子,提升多因子选股模型性能,验证因子在创业板和中证1000板块的表现并分析相关风险。
核心论点及结论:
报告强调在量化选股中,高频价量数据因其数据量大、维度高、噪声多,能够提供丰富的股票信息,对增强因子模型的预测能力尤其重要。利用深度学习模型处理高频数据,经由人工构建的55个低频化因子输入,训练得到32个深度学习特征因子。其中,因子hf18(创业板)和hf13(中证1000)实现了显著的超额收益,表现优于传统指数。模型基于周度换仓,包含交易费计提,三年实证数据验证其有效性,体现了深度学习在高频数据因子挖掘上的优势。[page::0, 21]
---
2. 逐节深度解读
2.1 高频因子思考
- 低频与高频因子的区别与挑战
传统因子基于财务报表等低频数据开发,因信息有限及广泛认知,收益提升受阻。相比之下,高频价量数据维度大,信息密度高,适合深度挖掘,有助于避免因子拥挤问题。高频因子挖掘需要解决数据体量庞大与噪声扰动大两大难题。日内数据制造的因子拥有更小的调仓周期和更多的独立样本段,提升因子可靠性验证能力,因此高频数据因子的收益提升潜力较大。[page::3]
- 高频数据特点
以分钟行情乃至3秒笔交易数据为主,数据存储需求高达数十GB。高频数据不能直接用作因子,必须通过特征变换或机器学习抽取有效信号。另外,高频因子更新迭代快,相对低频因子信息含量及有效样本多,符合动态市场需求。[page::3]
2.2 自动化特征工程
- 特征工程概念
特征工程在机器学习中指针对任务设计有效特征,是提升模型预测力的关键。例子包括BMI指数等通过变量组合得出的有效指标。在金融中,不同风格因子(如价值、动量等)均为领域知识的产物。
- 机器学习生成特征的方法
包括主成分分析(PCA)、梯度提升树(GBDT)及深度学习。PCA只能生成线性变换特征,提升有限;GBDT能自动生成叶子节点特征,呈现非线性优点;深度学习通过多层结构学习从原始输入到高级特征的复杂映射,并能自动激活与目标相关特征。
- 深度学习模型结构示意
图1和图2说明了GBDT特征提取和深度学习的多层特征抽象过程。全连接神经网络(图3)不具备时序处理能力,适合截面数据,循环神经网络(图4)适合时序数据,两者结合适合高频数据分析。报告先用人工手工设计55个日频基础因子,后续利用深度神经网络挖掘高阶特征。[page::4,5,6]
2.3 深度学习因子挖掘模型
- 模型结构及训练目标
采用7层深度全连接神经网络,输入层有55个节点,对应55个人工因子,输出层为3个节点,分别代表股票未来5日收益为上涨、平盘或下跌类别(按收益率分组上10%、中10%、下10%)。模型用交叉熵损失函数优化,训练采用反向传播,调整网络参数以拟合输入因子与分类标签的映射关系。
- 模型训练流程
从高频价量数据构建日频的55个人工因子,经网络深度学习抽取高阶因子,最终形成32个新因子,用于选股及组合构建。整体策略流程如图5所示,实现了机器学习因子的自动化提取。[page::7,8]
2.4 高频人工因子介绍
- 日内价格相关因子(表2)
包括收益率的方差、峰度、偏度,上行及下行收益率方差,趋势占比,日内收益率及最大回撤等10个因子,反映价格波动及形态特征。
- 成交量相关因子(表3)
分析不同时间段成交量占比(7个半小时分段占全天比例)、成交量与价格及收益率的相关性、以及Amihud流动性因子等。
- 盘前价量因子(表4)
包括隔夜收益率、各集合竞价阶段价格与开盘价的差异、竞价振幅等,反映盘前资金试探与多空博弈。
- 特定时段采样因子(表5)
关注开盘后半小时及收盘前半小时的价量特征,如收益率及成交量等,因该时段市场活跃度高。
- 大成交量相关因子(表6)
针对当天成交量排名前三分之一的大成交量时刻,提取对应价格收益率方差、峰度、偏度及相关性等因子。
以上因子均基于高频分钟数据人工设计,涵盖价格、成交量及时段特征,具备一定业务理解和金融逻辑支撑。[page::8-10]
2.5 实证分析
2.5.1 高频人工因子表现
- 数据基于2020年7月—2023年6月,使用创业板和中证1000两个股票池,剔除ST、涨跌停、上市未满1年标的,频率为每5交易日调仓,计交易费。
- 创业板人工作因子(表7)
表现最优为Amihudilliq非流动性因子,RankIC达8.92%,多头年化收益率27.91%,多空组合年化收益39.72%,明显优于其他因子。其他因子RankIC多为负值,显示部分高频因子的预测信息有限。
- 中证1000人工因子(表8)
以realkurtosis(收益率峰度)表现最佳,RankIC约-5.06%,多头收益10.76%,多空收益15.15%;Amihudilliq因子RankIC为6.57%,表现优良。
- 众多人工因子Rank
2.5.2 深度学习特征因子表现
- 使用2007-2020年6月全市场数据训练,其中2007-2017年训练,2018-2020年验证,2020年7月至2023年6月样本外测试。
- 创业板32个因子表现(表9)
共有14个因子多头收益超过10%,其中hf18表现最优,RankIC 负值-6.79%,多头年化收益27.25%,多空年化收益39.44%。hf2等因子多空收益更高但RankIC更负,表现说明因子方向性和收益稳定性间需平衡。
- 因子相关性(表10, 11)
创业板前10优选因子之间存在适度非相关性,确保组合多样化;前5个深度学习因子与输入的人工因子相关性较低,体现了深度学习从人工因子衍生出的独立信息。
- 因子hf18分档表现(图6)、收益率统计(表12)及累计收益图(图7)
hf18因子表现出明显的分档收益差异,表现最优档次获超额年化收益25%以上。累计收益曲线显著优于创业板指数,表明策略具有稳定超额Alpha来源。
- 按年度统计(表13、14)显示hf18因子在2021年后稳定表现,负RankIC超过85%,多头组合产生持续显著超额收益,且夏普率及信息比率均较高,表明风险调整后收益具有吸引力。
- 中证1000板块(表15)
hf13因子表现最佳,RankIC 6.63%,多头年化收益11.25%。
- 相关性分析(表16,17)
同创业板类似,前优因子之间以及与人工因子相关性较低,保证组合的多样性和信息独立性。
- 因子hf13分档表现(图8)、收益统计(表18)及累计收益(图9)
hf13因子表现稳定,充分体现其在中证1000板块的选股能力。年度收益表现显示,2022年及2023年均实现超额收益,且信息比率和夏普比率处于合理水平。
综上,深度学习提取的特征因子优于传统人工因子,能从高频数据中挖掘更多潜在有效信号,带来更稳健的选股结果。[page::14-20]
2.6 总结与风险提示
- 报告总结强调:在人工构建的55个高频日频因子基础上,利用深层全连接神经网络构建了32个深度学习特征因子,这些因子独立于原始因子,具备更强的股价预测能力,特别在创业板与中证1000两大板块取得显著超额收益。
- 跟踪频率为周度,计交易费用,验证样本外覆盖近三年,展现了良好的实际应用潜力。
- 风险提示包括:历史数据回测的局限性,策略对市场结构和政策环境变化敏感,可能出现失效风险,提醒投资者谨慎使用,结合市场实际动态调整策略。[page::21]
---
3. 图表深度解读
3.1 报告摘要图表(创业板hf18与中证1000 hf13因子表现)
- 创业板hf18因子表现图(图0-1)
该图显示2020年7月以来,hf18因子的多头组合累计收益远超创业板指数,走势平稳且上扬趋势明显,反映了因子优越的选股能力以及相对抗风险的稳健表现。
- 中证1000 hf13因子表现图(图0-2)
同期,hf13因子在中证1000股票池的表现也优于基准指数,累计收益线逐渐拉开,体现了因子的有效性。
这两张图从视觉上支持了报告中hf18和hf13因子在对应板块中取得超额收益的结论。[page::0]
---
3.2 机器学习及深度学习模型示意图(图1-4)
- 图1:GBDT特征提取示意图
直观展示决策树如何将输入样本映射到叶子节点作为新特征,体现了梯度提升树自动生成非线性组合特征的能力。
- 图2:深度学习特征提取示意图
展示深度学习从输入信号通过多层网络学习低阶和高阶特征再到分类输出的流程,强调了深度学习的多层次表达优势。
- 图3:全连接神经网络结构
说明输入层到隐含层再到输出层节点间的全连接,描述模型捕获信号的基本架构。
- 图4:循环神经网络结构
展示时间序列数据的序列处理机制,节点间时间依赖传递,适合处理金融时序数据。
这些图帮助理解机器学习与深度学习在特征抽取中的技术框架及适用性。[page::5-6]
---
3.3 模型流程示意图(图5)
- 揭示从高频价量数据—>设计55个低频化人工因子—>深度神经网络特征提取—>生成深度学习特征因子并用于选股,这一多步骤流程,逻辑清晰,展示了理论到实操的路径。
---
3.4 高频人工因子列表(表2-6)
- 系统展示了涉及价格波动、成交量分布、盘前数据、特定时段和大成交量特征的全面因子体系,体现了因子设计的多维度和专业度。
---
3.5 高频人工因子表现统计(表7-8)
- 以创业板和中证1000为样本,列出各因子的RankIC(因子信息系数)、多头和多空组合的年化收益。
- 指出Amihud非流动性因子表现突出,提示流动性风险是有效收益的重要来源,且其他因子表现参差不齐,为深度学习提取更多有用因子提供意义。
---
3.6 深度学习特征因子表现统计(表9-11,15-17)
- 详细报告了32个深度学习因子的RankIC、多头年化收益、多空收益以及因子间与人工因子的相关性。
- 结果表现出深度学习因子相对独立、结构复杂,且在两个板块均展现了优异的风险调整后收益水平。
---
3.7 因子分档表现与收益曲线(图6-7,8-9)
- 通过因子分档柱状图展示因子分值与收益的单调关系,如hf18和hf13在各自板块中最优分档表现明显好于其他档,验证因子筛选逻辑。
- 累计收益曲线(图7,9)清晰说明因子动态表现始终优于对应指数,强化统计意义上的超额收益证据。
---
3.8 因子年度统计(表13,14,19,20)
- 提供因子IC的年度均值、标准差、最大/最小值及负IC占比,并结合年化收益率、波动率、最大回撤等风险指标综合评估因子有效性,体现了因子表现的稳定性与风险收益特征。
---
4. 估值分析
本报告内容侧重于因子研究与量化策略构建,未直接包含传统意义上的估值(如DCF、市盈率)分析,因此无估值模型说明。
---
5. 风险因素评估
- 历史回测有效性风险:模型和因子基于历史大样本数据构建,市场政策变化及结构调整可能导致过去有效因子失灵。
- 策略失效风险:市场交易行为动态变化,因子和策略需不断调整,否则可能失去盈利能力。
- 数据和模型风险:高频数据存在噪声和超大维度,模型训练时可能面临过拟合或模型稳定性风险。
报告提醒策略用户关注这些风险,结合实际市场状况灵活应用,避免机械依赖历史结果。[page::0,21]
---
6. 批判性视角与细微差别
- 报告整体论点科学合理,结合机器学习方法与专业金融知识。但某些因子Rank_IC为负,说明因子方向对齐可能存在不足,或者收益率排序的分类标注方式需优化。
- 模型主要采用了全连接神经网络,对于时间序列特征建模略显不足,更多时序结构的RNN或CNN未深入应用(虽然图示有介绍),未来可探索更多模型结构提升因子提取能力。
- 报告并未对策略的交易成本特别细化说明,如高换手率下对流动性冲击的考量和滑点影响等,这对高频因子尤其关键。
- 年化收益和信息比率较高,但最大回撤仍接近30%以上,表明策略波动性和回撤风险仍需关注,适合风险承受能力较高的投资者。
- 报告对相关性的分析较全面,助力理解不同因子间的信息独立性,符合多因子模型构建原则。
---
7. 结论性综合
本报告通过系统的高频价量数据分析,结合机器学习最新技术,尤其是深度学习模型,为多因子选股体系引入了高维度、低频化后的高频因子,进一步挖掘了32个深度学习特征因子。这些因子在创业板和中证1000股票池中均实现了优越的实际选股表现,尤其是hf18因子在创业板实现年化27.25%的超额收益,hf13因子在中证1000实现超过11%的多头年化收益,均远超对应基准。
图表和数据细致验证了因子结构的多样性和独立性,展示了深度学习在因子构建中的强大能力,从而突破传统人工因子的局限。报告同时提示市场结构和政策变化带来的风险,强调策略需动态调整,避免历史收益的盲目信赖。总体看,本报告为高频因子挖掘提供了理论与实证的双重支持,是当前量化投资领域高频因子研究的重要成果,对专业量化投资者和金融工程研究者有较高的参考价值。[page::0–22]
---
重要图表示例Markdown格式:
- 创业板hf18多头累计收益相对创业板指数优势明显:

- 中证1000 hf13多头累计收益与中证1000指数对比表现:

---
## 综上所述,该报告详尽介绍了基于深度学习的高频数据因子挖掘流程、因子设计、深度学习模型架构、实证测试及风险评估,提供了明确的数据支撑和策略性能展示,为高频数据因子研究提供专业且系统的技术路线和应用模板。