`

选股因子系列研究(二十五)——高频因子之已实现波动分解

创建于 更新于

摘要

本报告深入研究了股票高频收益中的波动率因子构建问题,发现传统“系统波动+特质波动”分解在高频维度选股能力不佳,而基于“上行波动+下行波动”分解的高频上行波动占比因子表现优异,且在剔除常见选股因子后的正交分析中依旧保持显著选股能力。实证回测显示1分钟数据频率的上行波动占比因子月度多空收益率达1.89%,加入多因子模型后全面提升模型性能,年化收益和信息比率均有改善,尽管2017年6月出现失效,整体仍表现稳定[page::0][page::4][page::6][page::9][page::10][page::12]。

速读内容

  • 高频波动率拆分研究发现:“系统波动+特质波动”拆分在高频维度无有效选股能力,且在剔除市值、换手、反转等常见因子后表现更差;而“上行波动+下行波动”拆分下的高频上行波动占比因子表现较优,1分钟频率下因子月均IC为-0.083,ICIR为-3.9,月度多空收益达到1.89% [page::0][page::5][page::6][page::8]。

  • 上行波动占比分组特征分析表明,该因子与市值和换手率因子相关性较强,但其选股能力并非完全来源于市值因子,且与日级别特异度因子和反转因子相关性较低,显示该因子捕捉了股票价格短期大幅拉升的特质,是一种有效的高频选股信号 [page::7]

  • 多因子模型中加入上行波动占比因子显著提升模型表现,2012-2017年1分钟版本改进模型复合IC提升至0.109,月度胜率提升至87.9%,月度多空收益4.20%,TOP100组合年化收益增加至50.5%,信息比率提升至2.861 [page::10]

  • 不同频率下因子权重分配显示,1分钟上行波动占比因子平均权重约10%,5分钟和10分钟因子权重分别约5%和3%-5%,对应频率因子选股效果差异体现权重变化 [page::11]


  • Fama-MacBeth回归分析显示新增1分钟上行波动占比因子月均溢价约33bp,T统计量绝对值接近7,显著性强,支持该因子具有稳健选股能力;频率变大时表现有所减弱 [page::9]

- 2017年上行波动占比因子表现稳健,除了2017年6月出现短暂失效外,其余月份IC和多空收益均实现正收益,但单因子组合表现不佳,累计收益为-13.25%,建议以多因子方式使用该因子以获得更稳健收益[page::12]
  • 风险提示:本策略面临市场系统性风险、资产流动性风险及政策变动风险,投资者需注意相关风险影响[page::0][page::12]

深度阅读

报告详尽分析:选股因子系列研究(二十五)——高频因子之已实现波动分解



---

1. 元数据与报告概览



报告标题:选股因子系列研究(二十五)——高频因子之已实现波动分解
分析师:冯佳睿、袁林青
发布机构:海通证券股份有限公司研究所
发布日期:2017年
研究主题:股票高频收益波动率因子的分解研究及其选股能力分析,重点探讨“系统波动+特质波动”与“上行波动+下行波动”两种拆分方式,挖掘高频波动中的有效选股因子,提升多因子模型表现。

报告核心论点
  • 高频股票收益波动的传统拆分类别(系统波动与特质波动)在分钟级别频率下选股效果较弱,随着数据频率降低至日级别,效果有所恢复。

- 以“上行波动+下行波动”的拆分方式能够从高频收益数据中提取出有效的选股因子——尤其是“上行波动占比”因子表现优异。
  • “上行波动占比”因子即使在剔除多种已知传统选股因子(正交处理)后,依然表现出显著的选股能力,且其选股效果随着数据频率提高而增强。

- 将该因子纳入多因子模型能显著提升模型的IC(信息系数)、ICIR(信息比率)、多空组合收益率以及因子权重表现。
  • 报告也指出市场风险、流动性风险及政策风险对策略风险的潜在影响。


总的来说,报告通过深入的实证分析表明,选取高频数据进行波动拆分并利用“上行波动占比”构建高频选股因子,有助于提升量化选股策略的效能。[page::0,4]

---

2. 逐节深度解读



2.1 相关背景及研究目的(导言)



报告承接了之前的系列研究,确认了股票高频偏度在因子选股中的有效性,但高频方差和峰度未展示明显的选股能力。同时日频波动率因子同样表现不佳,但拆分为系统波动与特质波动后取得较好效果。本报告由此尝试对高频波动率进行拆分,寻求更具说明力的高频选股因子。[page::0,4]

---

2.2 高频波动率的拆分(第1章)



2.2.1 “系统波动 + 特质波动”拆分(1.1节)


  • 方法论:利用Fama-French三因子模型在高频(1分、5分、10分)收益序列进行回归,分离系统收益与特质收益。分别计算系统波动与特质波动的平方根累积值。

- 结果
- 高频频率越高,特质波动因子的选股效果越差(表1展示1分钟频率下,特质波动Rank IC为-0.034,多空收益0.25%;而5分、10分频率时有略微改善)。
- 高频特异度因子(特质波动占总波动比)在高频下也无选股效果,但在日频级别选股效果稳定。
  • 逻辑解释:高频数据噪声较大,导致“系统波动+特质波动”拆分下的因子信号被稀释或模糊。

- 图1:高频特质波动率因子分组收益特征示意,三个频率条件下特质波动因子分组收益整体趋同,说明高频分离下信号不明显。[page::4,5]

2.2.2 “上行波动 + 下行波动”拆分(1.2节)


  • 定义

- 高频上行波动 = 只计算正收益部分收益率的平方累计后开方。
- 高频下行波动 = 同理计算负收益部分。
- 上行波动占比 = 正收益平方累计 / 总收益平方累计。
  • 结果(表2):

- 上行波动及上行波动占比因子表现明显优于“系统+特质”拆分。
- 以1分钟数据为例,上行波动占比Rank IC达到-0.083,ICIR达到-3.902,月度多空收益1.89%。
  • 因子经济含义:短期大幅拉升(高上行波动)更容易导致收益反转,故预期表现较差。

- 图2:显示不同数据频率下,上行波动占比因子的分组收益随组别递增单调降低,验证了因子的反转信号。
  • 频率影响:随着数据频率提高,指标区分度增强。

- 分组分析(1.3节)
- 图3表明,上行波动占比与换手率和市值有相关性,因子多头组多为大市值及低换手率股票。
- 与反转因子以及日级别特异度因子相关性较低,说明该因子捕捉了独立的风险收益特征。
  • 总结:上行波动占比能挖掘高频数据中的强烈选股信号,显示其在高频选股因子中的独特价值。[page::5,6,7]


---

2.3 因子正交分析(第2章)


  • 目的:检查新构造的高频因子是否与传统选股因子存在冗余关系。

- 方法:剔除行业、市值、非线性市值、换手、反转、特异度、估值、成长及盈利等因子影响,对新因子进行正交处理。
  • 结果

- “系统波动+特质波动”拆分后的因子正交后几乎无选股能力(表3,Rank IC及ICIR指标均接近零)。
- “上行波动+下行波动”拆分中,上行波动占比因子正交后依旧保持显著的负相关选股能力(表4中1分钟数据的Rank IC为-0.038,ICIR为-3.665,多空收益0.92%)。
  • 结论:唯一值得纳入多因子模型的是上行波动占比因子,且该因子具备独立的选股信息,不依赖于传统因子表达的风险特征。

- 选股效果随数据频率递增,表明高频数据更好地捕捉到了相关的价格拉升特征。[page::8,9]

---

2.4 多因子模型对比分析(第3章)



3.1 Fama-MacBeth回归(3.1节)


  • 设计:基于2012年1月至2017年7月的数据,对原始多因子模型与加入上行波动占比因子(1分钟、5分钟、10分钟)的改进模型进行回归。

- 结果(表5):
- 新增因子显著,1分钟频率下T统计量-6.99,表明稳健的选股能力;加入因子后原有因子的月均溢价和显著性无明显负面影响。
- 频率越高,新增因子表现越强。
  • 比较:1分钟数据下,新增因子月均溢价33bp,相较于市值因子月均溢价72bp和反转因子51bp,显示其有一定的补充价值。


3.2 复合因子及选股组合表现(3.2节)


  • 表6对比原始模型与改进模型多方面指标(复合IC、ICIR、月度胜率、多空收益、年化收益和信息比率)。

- 发现
- 加入1分钟上行波动占比因子后,复合IC从0.104提升到0.109,月度胜率由84.8%提升至87.9%,多空收益也略有改善。
- TOP100选股组合收益年化由49.0%提升至50.5%,信息比率增加至2.861。
  • 结论:加入高频上行波动占比因子整体提升了多因子模型选股效果,尤其对于极端收益和风险控制有正面贡献。


3.3 因子权重分配(3.3节)


  • 图4~6

- 1分钟因子权重约占10%,市值权重15%至30%,换手和反转因子也有较高权重。
- 5分钟和10分钟新因子权重明显较低(5%和3%至5%)。
  • 说明:因子效能决定权重,1分钟频率因子因表现优异占比相对较大。


[page::9,10,11]

---

2.5 因子2017年表现(第4章)


  • 表7月份逐项列示2017年1月至7月的多空收益率与因子IC。

- 表现特点:因子多月表现稳定分化,仅6月份出现选股失效(负多空收益和负IC)。
  • 限制:尽管因子在区分股票收益方面表现良好,单因子构建的多头组合累计收益仍为负(TOP10%多头组合收益为-13.25%),显示单因子投机应用有局限。

- 推断:该因子更适合作为多因子模型中的辅助因子,而非独立单因子策略。

[page::11,12]

---

2.6 总结与风险提示(第5章与第6章)


  • 总结

- 高频因子“系统波动+特质波动”拆分方式不可行,但“上行波动+下行波动”拆分的上行波动占比因子是有效的高频选股因子。
- 该因子在剔除传统因子影响后仍表现显著,能提升多因子模型整体表现。
  • 风险提示

- 报告明确指出市场系统性风险、资产流动性风险以及政策变动风险会对策略表现造成重大影响,投资者需谨慎考量。

[page::12]

---

3. 图表深度解读



表1:“系统波动 + 特质波动”拆分因子月度选股效果



| 数据频率 | 指标 | 高频特质波动 | 高频系统波动 | 高频特异度 |
|----------|---------------|--------------|--------------|------------|
| 1分钟 | Rank IC | -0.034 | -0.070 | 0.044 |
| | ICIR | -0.886 | -1.434 | 0.986 |
| | IC为正比例 | 37.8% | 32.2% | 64.4% |
| | 多空收益率 | 0.25% | 1.48% | 1.28% |
| 5分钟 | Rank IC | -0.062 | -0.063 | 0.007 |
| | ICIR | -1.427 | -1.207 | 0.161 |
| | IC为正比例 | 31.1% | 34.4% | 53.3% |
| | 多空收益率 | 0.93% | 1.06% | 0.35% |

解读:总体而言,特质波动与系统波动因子均出现负的Rank IC和ICIR,且多数月份IC为正比例远低于50%。说明这种拆分方式在高频层面识别的信号较弱。多空收益较低且不稳定,尤其特质波动最低。10分钟数据虽有小幅回升,但仍表现差强人意。

联系文本:作者指出该拆分方式不适合高频数据,但随着数据间隔增大,选股效果有改善(暗示数据频率影响较大)。

---

图1: 高频特质波动率因子分组收益特征


  • 三条曲线分别代表1分钟、5分钟、10分钟周期,横坐标为因子分位数组,纵轴为该组后续收益。

- 曲线呈现先升后降形态,收益多集中在中间分组,极端组表现平平。
  • 三个频率的表现大体类似,无显著优异的分组收益差异。


解读:该图形象说明高频特质波动率因子的分层效果有限,分组后的未来收益差异小。

---

表2:“上行波动 + 下行波动”拆分因子选股效果



| 数据频率 | 指标 | 高频上行波动 | 高频下行波动 | 高频上行波动占比 |
|----------|---------------|--------------|--------------|------------------|
| 1分钟 | Rank IC | -0.047 | -0.028 | -0.083 |
| | ICIR | -1.201 | -0.716 | -3.902 |
| | IC为正比例 | 32.2% | 45.6% | 13.3% |
| | 多空收益率 | 0.59% | 0.12% | 1.89% |
| 5分钟 | Rank IC | -0.077 | -0.054 | -0.080 |
| | ICIR | -1.731 | -1.115 | -3.304 |
| | IC为正比例 | 30.0% | 35.6% | 20.0% |
| | 多空收益率 | 1.22% | 0.70% | 1.73% |

解读
  • 上行波动占比指标的IC、ICIR均显著优于上行或下行波动本身,表明占比度量更好提炼了选股信息。

- 指标均为负值,暗示上行波动占比与未来收益存在负相关关系,即“更高的上行波动占比预示更差的未来收益”。
  • 多空收益率亦体现了该趋势,1分钟频率下达到1.89%,具有实际选股意义。


---

图2:上行波动占比因子分组收益特征


  • 三条曲线均单调下降,说明因子越高(波动占比越大)的组合未来表现越差,确认了负向关系。

- 不同数据频率下表现趋势一致,数据频率越高,分辨率越明显。

---

图3:上行波动占比分组特征


  • 多条曲线体现了不同分组的市值、反转、换手率、特异度及未来收益。

- 注:因子多头组合(第1组)对应大市值、低换手率股票,且反转和特异度变化不明显。
  • 说明:因子和换手率及市值相关,但剔除市值影响后多空效果不能归因于市值。


---

表3、4:正交后因子选股效果表


  • 表3(系统+特质正交)IC和多空收益普遍减弱,接近无效水平。

- 表4(上行+下行正交)上行波动占比还保持一定负相关和多空收益,特别是1分钟频率,ICIR为-3.665,月度多空收益0.92%。

---

表5:Fama-MacBeth 回归结果


  • 新增因子T统计量在1分钟频率下达到-6.99,显示极高显著性。

- 原有因子统计量相对稳定,说明新增因子不会对原因子造成干扰。
  • 月均溢价显示新增因子贡献约33bp,虽低于市值因子72bp,但仍有较强实用价值。


---

表6:多因子合成模型效果对比


  • 信息系数提高0.005,月度胜率提高3.1%,月度多空收益提高0.14%。

- TOP100组合年化收益和信息比率均提升,表明实盘选股能力增强。

---

图4-6:多因子模型因子权重分配


  • 1分钟上行波动占比因子权重稳定在约10%水平,显示其在模型中的重要性。

- 5分钟和10分钟对应因子权重明显较低,反映出其实用价值较弱。

---

表7:2017年上行波动占比因子每月表现


  • 多数月份信息系数正向且多空收益正向,如6月表现尤为突出(因子IC=0.182,多空收益3.75%)。

- 唯独2017年5月因子失效,IC和多空收益为负。
  • 持续性表现良好但单因子净收益为负,提示其更适合作为多因子系统组成部分而非独立策略。


---

4. 估值分析



本报告属量化因子研究性质,无直接估值模型,如现金流折现等,故未涉及估值方法。

---

5. 风险因素评估


  • 市场系统性风险:整体市场波动或崩跌会导致策略表现大幅波动。

- 资产流动性风险:高频数据依赖市场流动性,流动性紧张时因子表现可能失效。
  • 政策变动风险:政策收紧可能影响整体量化策略有效性及市场结构。


报告未详述缓解措施,但暗示投资需谨慎,建议结合风险管理指标。

[page::0,12]

---

6. 审慎视角与细微之处


  • 数据频率选择影响显著:因子选股成功率随数据间隔缩短提升,表明短周期高频数据能捕获更多有效信息,但过短的数据可能包含更多噪音,风险不可忽视。

- 负Rank IC与因子应用:因子平均呈负相关,强调因子方向性为反转特性,使用时需明确策略构建逻辑,避免误用。
  • 单因子策略表现不佳:尽管因子具有统计意义,报告清楚指出该因子不能独立形成收益,反映了金融因子研究中常见的多因子组合优势。

- 报告未涉及其他潜在风险:如样本内外测试差异、过拟合风险,以及高频数据的版权与清洗等潜在障碍未作讨论。

---

7. 结论性综合



本报告系统研究了股票高频收益波动率的拆分及其选股表现,通过“系统波动+特质波动”与“上行波动+下行波动”两种方式对比发现:
  • 高频层面传统拆分方式没有带来预期的选股信号,特质波动在高频表现尤为弱势;

- “上行波动占比”这一创新因子在高频段表现显著,其反转性质明显,是基于高频大幅拉升特征的有效选股信号;
  • 正交分析及多因子回归研究确认该因子具备独立信息价值,纳入多因子模型可全方位提升IC、胜率及组合收益;

- 1分钟频率的数据对因子表现提升最为显著,使其在实际选股模型中占据约10%权重;
  • 因子仍须与传统因子结合使用,单因子虽有统计优势,但无法形成独立正收益;

- 该研究为构建融合高频信息的量化选股模型提供了重要新思路,同时提示仍需警惕市场风险及流动性风险。

综上,报告合理运用统计学方法、因子正交及多因子实盘模拟,给出强有力的实证支持,展现了“高频上行波动占比”因子在选股体系中的潜力和实际意义。

---

图表示意展示


  • 图1 高频特质波动率因子分组收益特征



  • 图2 上行波动占比因子分组收益特征



  • 图3 上行波动占比分组特征



  • 图4 加入1分钟上行波动占比的改进模型因子权重分配情况



  • 图5 加入5分钟上行波动占比的改进模型因子权重分配情况



  • 图6 加入10分钟上行波动占比的改进模型因子权重分配情况




---

以上为本报告的极其详尽与全面的剖析解读,涵盖了报告的背景、方法论、数据解读、因子构建、实证检验、多因子集成以及风险因素,所列图表均已详细解析与对应说明,确保对该选股因子研究有深入透彻理解。[page::0-12]

报告