高频价量数据的因子化方法 多因子 Alpha 系列报告之(四十一)
创建于 更新于
摘要
本报告系统构建和分析了基于高频价量数据的46个周度选股因子,涵盖日内价格相关因子、日内价量相关因子、盘前信息因子及特定时段采样因子四大类。通过因子IC和多空超额收益检验,筛选出12个因子表现优异,包括已实现偏度real_skew、尾盘半小时成交量占比ratio_volumeH8及Amihud非流动性因子Amihud_illiq等。结果显示,大部分因子正Alpha收益弱于负Alpha,扣除交易成本后多头组合超额收益显著降低,Amihud_illiq因子表现优异,年化超额收益超17%。报告还对因子中性化和平滑方法差异进行了深入比较,提出未来因子转化和策略优化方向的展望。[page::0][page::4][page::36]
速读内容
- 高频价量因子优势及构建方法 [page::4][page::5]

- 高频数据因子拥挤度低、样本独立性强,因子多样性优于低频因子。
- 构建步骤:基于日内分钟数据计算日频因子,再通过加窗平滑构造稳定因子。
- 采用四类因子体系:日内价格相关、日内价量相关、盘前信息和特定时段采样因子。
- 日内价格相关因子特征与选股表现 [page::6][page::9][page::10][page::11]
| 因子名 | 多空超额收益率 | 正Alpha | 负Alpha | 多空胜率 | 年化换手率 |
|----------------|---------------|---------|--------|----------|------------|
| realskew (MA5) | 29.27% | 5.87% | -18.42% | 72.88% | 43.0 |
| retintraday (MA5) | 34.23% | 5.42% | -22.87% | 61.84% | 44.1 |
- realskew和retintraday为代表因子,MA5平滑后IC稳定且高于原因子。


- 日内价量相关因子表现及Amihud非流动性因子分析 [page::13][page::14][page::15][page::16][page::17][page::18][page::19][page::20]
| 因子名 | 多空超额收益率 | 正Alpha | 负Alpha | 多空胜率 | 年化换手率 |
|-----------------|---------------|---------|--------|---------|------------|
| ratiovolumeH8 | 33.91% | 10.96% | -17.71% | 71.07% | 39.4 |
| corrVP | 47.57% | 10.17% | -26.09% | 73.42% | 43.0 |
| corrVRlag | 31.87% | 1.78% | -23.76% | 64.38% | 43.9 |
| Amihudilliq | 36.22% | 16.22% | -16.63% | 65.64% | 23.4 |
- Amihudilliq因子表现突出,费后超额收益稳定且最大回撤可控。

- 盘前信息因子及特定时段采样因子表现总结 [page::20][page::21][page::22][page::23][page::24][page::25][page::26][page::27][page::28][page::29][page::30][page::31][page::32][page::33]
- 盘前因子中retopen2AH1与retopen2AL1表现最优,年化ICIR最高达4.17。
- 尾盘和大成交量时段因子如retH8、realskewlarge、corrVPlarge、corrVRlaglarge展现较高稳定性和选股能力。



- 多因子筛选及超额收益表现 [page::33][page::34][page::35]
| 因子名 | 多空超额收益率 | 正Alpha | 负Alpha | 相对中证500超额收益 |
|---------------|---------------|---------|---------|---------------------|
| Amihudilliq | 36.22% | 16.22% | -16.63% | 17.28% |
| corrVP | 47.57% | 10.17% | -26.09% | 7.04% |
| retH8 | 50.04% | 11.20% | -26.38% | 8.14% |
| ratiovolumeH8| 33.91% | 10.96% | -17.71% | 8.64% |
- 筛选12个优质因子均表现较强多空超额能力,但正Alpha收益普遍弱于负Alpha收益。

- 不同因子平滑方法比较 [page::35][page::36]
| 因子名 | 原因子ICIR | MA5 | EMA5 | MA20 | EMA20 |
|--------------|------------|------|------|------|-------|
| realskew | 3.44 | 5.05 | 4.98 | 4.52 | 4.72 |
| retintraday | 1.49 | 2.66 | 2.67 | 2.71 | 2.83 |
| corrVP | 4.67 | 4.74 | 5.36 | 4.24 | 4.79 |
| corrVRlag | 2.94 | 3.76 | 3.92 | 4.20 | 4.25 |
- MA5及EMA5平滑因子在五天调仓频率下表现优于MA20,凸显较好的预测能力。[page::36]
- 量化因子总结:
本报告重点构建并验证了基于高频分钟级价量数据的多类因子,覆盖价格高阶统计特征、价量相关性、盘前集合竞价信号及特定活跃时段采样,筛选出多个具备稳健IC及多空超额收益的因子。虽然大部分因子的负Alpha收益远高于正Alpha,导致扣除交易费用后的正向超额收益受限,但Amihudilliq等流动性因子表现突出,具有实用的多头超额贡献。未来研究需进一步探索因子组合优化及策略实施中的成本控制以提升实际应用价值。[page::0][page::33][page::36]
深度阅读
高频价量数据的因子化方法 —— 多因子 Alpha 系列报告(四十一)详尽分析报告
---
一、元数据与报告概览
报告标题: 高频价量数据的因子化方法
作者及分析师团队: 罗军、安宁宁、史庆盛、张超、文巧钧、陈原文、樊瑞铎、李豪、郭圳滨、季燕妮、张钰东、季俊男等(具体注册信息详见报告末尾)
发布机构: 广发证券发展研究中心
发布日期: 未明确给出,推测时间覆盖数据至2021年末
研究主题: 利用高频价量数据构建日内选股因子,评估因子表现,筛选有效因子,主攻领域为量化投资中的高频因子挖掘。
核心论点摘要:
- 高频数据在因子构建中具有低拥挤度、多样性强、样本多的优势。
- 构建了四类高频因子共46个,包括日内价格相关因子、日内价量相关因子、盘前信息因子、特定时段采样因子。
- 采用因子信息系数(IC)、多空收益等指标进行检验,筛选出12个表现优异的周度选股因子。
- 多数因子中,负Alpha收益显著高于正Alpha收益,说明空头组合收益表现更强。
- 扣除交易费用后,因子超额收益普遍下降,仅Amihud非流动性因子保持相对稳定的超额收益。
- 策略存在风险,市场结构变化可能导致模型失效。
---
二、逐节深度解读
1. 高频信息因子的优势(第4页)
- 高频价量数据相较于低频具有明显优势:
1. 因子拥挤度低——高频数据量巨大,但因其采集和处理难度高,因子开发者较少,降低了因子拥挤度,保障了因子独立性。
2. 多样性较好——高频数据为多维时序信号,需信号变换、机器学习提炼特征,难度大且相关性低于传统低频因子,使得挖掘出的因子更加多样。
3. 样本量多——短周期调仓使得测试期内独立样本数显著增加,有助于因子稳定性检验。
- 困难在于高噪声和数据维度极大,多因子开发方法分为:人工经验构造和机器学习自动挖掘(如遗传规划、深度学习)。
- 本报告聚焦将分钟频日内行情数据因子化,构建46个因子,通过IC和多空收益率测试筛选12个表现优良的因子,意在为高频因子挖掘提供范例和指导。
---
2. 因子构建方法和主要性能指标(第5-6页)
- 因子构建分两步:
- 日频因子构建:从高频日内数据计算,产生日频因子。
- 平滑处理:采用简式移动平均(MA5等)或指数移动平均(EMA5、EMA20等)对日频因子进行平滑,增强因子稳定性和预测能力。
- 构建的因子类别:
- 日内价格相关因子(10因子)
- 日内价量相关因子(13因子)
- 盘前信息因子(7因子)
- 特定时段采样因子(16因子)
- 绩效测试采用周度调仓假设,预测未来五个交易日收益。
- 绩效指标:
- IC (信息系数):因子值与未来收益的秩相关系数,表征因子预测能力。
- IC胜率:因子方向正确的比例。
- ICIR:IC均值与标准差之比的年化,衡量因子稳定性。
- 多空超额收益:多头组合减空头组合的年化超额收益,衡量因子选股有效性。
- 正Alpha/负Alpha:多头/空头组合相对基准收益率。
- 采用风格因子(市值、动量、波动率、换手率)做中性化调整,剔除风格暴露。
---
3. 日内价格相关因子(第6-11页)
- 基于价格日内收益率的高阶统计量和价格形态,构建10个因子,包括已实现方差(realvar)、偏度(realskew)、峰度(realkurtosis)及其上行、下行变种,趋势占比(trendratio)、日内收益率(retintraday)和日内最大回撤(intradaymaxdrawdown)。
- 数学定义清晰,偏度反映收益分布偏斜,峰度反映厚尾特性。
- 相关性:realskew、趋势占比和日内收益率与低频风格因子相关性较低(约-1%~15%),且不同于传统风格因子暴露,具备独立信息。
- IC表明,MA5平滑后,realskew(IC均值-4.48%,ICIR 5.05)和retintraday(IC均值-4.94%,ICIR 2.66)预测能力较强,表现稳定。
- 图表2和3显示这两个因子的IC累计曲线整体下降,表明从2016年后收益预测能力有所减弱。
- 多空收益测试显示,这些因子多空超额收益可观(realskew为29.27%,retintraday为34.23%),但正Alpha明显低于负Alpha(例如,realskew正Alpha 5.87%,负Alpha -18.42%),说明空头组合在整体因子贡献中占更大比重。
- 通过风格因子中性化调整后,选股能力略减,说明部分因子收益包含了风格暴露。
- 图4、5多空收益走势充分展示了因子选股能力提升与时间变化趋势。
---
4. 日内价量相关因子(第12-20页)
- 构建8段交易时间内成交量占比因子(ratiovolumeH1至ratiovolumeH8)及5个价量相关因子(包括价格与成交量相关系数corrVP,成交量与收益率及其滞后、超前相关性,Amihud非流动性因子等)。
- Amihud因子在分钟频率构建,衡量单位成交额对价格波动影响,数值越大表示股票流动性越差。
- 价量相关因子与低频风格因子相关性整体较低,Amihud非流动性因子表现出较强负相关(市值-50.24%,换手率-32.13%,波动率-27.48%),符合流动性较差股票特征。
- IC表现:MA5平滑后,表现最佳因子为ratiovolumeH4(IC均值4.13%,ICIR 4.42)、corrVP(-6.15%,4.74)、corrVRlag(-5.46%,3.76)、Amihudilliq(6.57%,3.68)。
注意:CorrVP和corrVRlag负均值表示其因子方向与未来收益关系为负相关。
- 多空收益测试上,表现较好的因子如ratiovolumeH8(33.91%)、corrVP(47.57%)、corrVRlag(31.87%)、Amihudilliq(36.22%),但除Amihud外,正Alpha收入显著小于负Alpha收益。
- 风格中性化后,Amihud因子选股能力大幅下降,显示风格暴露严重,而ratiovolumeH8和corrVP影响较小。
- 表格和图表(6-13)详尽展示了因子的IC走势及收益表现趋势,揭示各因子收益稳定性和时效性。
- 全市场与中证500指数成份股的分组测试显示,因子均有一定的选股实力,但规模效应存在,部分因子在大盘股中表现较为弱势。
---
5. 盘前信息因子(第20-25页)
- 利用隔夜收益率、开盘集合竞价数据构建7个因子,如retovernight、开盘价相对集合竞价最高/最低价收益率(retopen2AH1, retopen2AL1)、集合竞价振幅等。
- 该时段反映资金试探和买卖力量博弈,信息丰富。
- 与低频风格因子相关性偏低,但有少量中等程度正负相关。
- IC值显示原始日频因子retovernight的预测性能最好(IC均值-4.41%,ICIR 4.36),但MA5平滑后反而下降明显;retopen2AH1和retopen2AL1平滑后IC有所提升(4.35%和2.51%)。
- 多空收益测试发现,retopen2AH1和retopen2AL1因子表现优秀,正Alpha略低于负Alpha。
- 中性化后,盘前信息因子选股能力未明显受损,少数因子甚至略有提升。
- 多空收益和风险控制指标进一步验证了这类因子的市场适用性和实用性。
---
6. 特定时段采样因子(第25-33页)
- 聚焦开盘30分钟及收盘半小时的价量信息,采样构建因子,例如收盘前半小时收益率(retH8)、价量相关指标、大成交量时间段统计的收益率方差、偏度等。
- 将成交量排名前1/3的分钟确定为“大成交量”时段,提取相关价量特征,挖掘霸王单等信息效应。
- 相关性数据表明大部分因子与低频风格因子相关不高,仅大成交量收益率方差与波动率正相关明显。
- IC值显示MA5平滑后retH8、realskewlarge、corrVPlarge、corrVRlaglarge因子表现突出,稳定且有效。
- 多空收益测试确认这些因子均具有可观的超额收益率(例如retH8多空超额收益达50.04%,corrVPlarge 49.82%),但正Alpha依然明显不及负Alpha。
- 风格因子中性化处理后影响较小,部分因子略有削弱,说明这批因子较为稳健。
- 图表(19-26)详细呈现了因子IC及收益走势,进一步验证因子度量效果和时间稳定性。
---
7. 筛选因子考察(第33-35页)
- 综合前述分析,筛选12个优质因子:
realskew、retintraday、ratiovolumeH8、corrVP、corrVRlag、Amihudilliq、retopen2AH1、retopen2AL1、retH8、realskewlarge、corrVPlarge、corrVRlaglarge。
- 这些因子均展示良好的多空超额能力,但正Alpha收益均显著劣于负Alpha收益,提示多头组合收益的转化仍有提升空间。
- 以中证500为基准,剔除交易费用后,Amihud
---
8. 不同平滑方法性能比较(第35-36页)
- 比较MA5、MA20及指数平滑EMA5、EMA20四种平滑方法对因子IC和多空收益的影响。
- 结论是:
- 大多数因子平滑后效果优于原因子;
- 5日窗口平滑(MA5)较20日窗口(MA20)更有效,适合周度调仓策略;
- 指数平滑方法(EMA5)在某些因子上表现更优,因其更重视近期数据。
---
9. 总结与风险提示(第36页及以后)
- 高频价量因子相较于低频因子在多样性、样本量和拥挤度方面具备明显优势。报告列举并测试了来自四种视角的46个因子,筛选出12个表现优异的因子。
- 这些因子具备稳定的多空收益率和选股能力,但多头组合超额收益转化仍有限,未来研究如何将因子Alpha收益有效转换为实际多头超额收益价值重大。
- Amihud非流动性因子表现最突出,具备较强的相对基准超额收益。
- 策略存在市场结构变化风险,需密切关注因子失效和拥挤度变化。
---
三、图表深度解读(精选部分)
图1(第5页) 因子构建方法示意图
清晰展示因子从“高频信息”到“日频因子”再到“平滑因子”的处理流程,是报告因子工程的基础。
图2 & 图3(第9-10页) realskew、retintraday因子MA5的IC及累计IC走势
- 均显示因子预测能力由正向逐渐转为负向,累计IC呈下降趋势,前期表现较好,后期收益预测能力减弱。
- 说明部分高频因子存在显著的时效性,需要动态调整。
图4 & 图5(第11-12页) realskew、retintraday多空收益走势
- MA5平滑因子多空收益表现整体优于原因子。
- 多空超额累计收益稳定上升,但波动存在,且大盘内和中证500成分股收益表现差异明显。
表4(第9页)至表12(第17页)大量详实统计数据与IC、收益评价指标
- 通过全面数据比较和指标计算,报告系统评估各因子的预测能力与实盘表现,为因子筛选提供充分证据。
- 反复强调多空收益中“负Alpha收益”通常强于“正Alpha收益”,反映空头策略贡献较大。
图27(第35页) Amihudilliq因子MA5超额收益走势(费后)
- 显示扣除成本后仍可保持显著超额收益,体现该因子在实际投资中的价值和可操作性。
---
四、估值分析
本报告不涉及公司估值模型,不包含DCF或市盈率分析,主要关注高频因子构建及其选股效果,其价值表现在提升量化选股策略预测能力。
---
五、风险因素评估
- 策略非万能有效,存在因市场结构变化、交易行为演变、因子拥挤度提高导致的失效风险。
- 高频因子对数据准确性和处理能力要求高,现实中数据延迟、噪声波动都可能对模型性能造成影响。
- 交易费用显著影响实际收益,需合理估计和考虑。
- 报告所选因子测试主要基于历史数据,不代表未来表现。
---
六、批判性视角与细微差别
- 绝大多数因子表现出负Alpha远强于正Alpha,说明空头组合收益贡献大,可能反映市场下跌偏向性,需谨慎在实际策略切实落实。
- 因子IC随时间下降,显示市场或机制变化导致因子有效期有限。
- Amihud因子选股能力受风格因子中性化影响较大,提示该因子可能隐含较多规模及流动性风险暴露。
- 报告侧重MA5平滑,其他平滑方式虽有探讨但未深入,可进一步研究不同平滑窗口对因子时效性的影响。
- 高频数据对处理能力要求高,报告未细述计算复杂度与运用门槛,投资者需结合实际硬件资源评估可行性。
---
七、结论性综合
本报告系统梳理了利用高频价量数据构建日内选股因子的完整流程,涵盖因子设计、计算、平滑、关联分析、IC测度和多空超额收益评估。通过详尽的指标测算,筛选出12个表现稳定且收益显著的因子类别,覆盖价格高阶统计、价量关系、盘前信息及特定时间段采样,覆盖了市场多个角度的异质信息。
尽管多数因子正Alpha收益较低,但整体呈现良好的绝对和相对多空超额收益能力。作为高频量化策略组件,这些因子具备实用价值。扣除交易成本后,Amihud非流动性因子尤其突出,贡献了较高的绝对和相对超额收益。因子平滑处理,如MA5,明显提升了IC和收益的稳定性,兼顾了响应速度与噪声抑制。
图表直观清晰地展示了因子随着时间变化的预测效力及选股表现,为投资者实际应用提供了丰富实证支持。报告同时指出了因子使用中的风险,如市场变化、策略拥挤、交易摩擦等挑战,为后续研究指明了方向。
整体来看,本报告不仅丰富了高频数据因子研究体系,也为投资者开发高效量化策略提供了有力工具和经验借鉴,特别是在增强选股多空区分能力和提升周度调仓策略性能方面。
---
图例引用示例:
- 图1:因子构建方法示意图

- 图2:realskew因子MA5的IC走势

- 图27:Amihudilliq因子MA5超额收益走势(费后)

---
(全文基于报告内容,所有结论均附带具体页码标识)([page::0-37])