`

高频研究系列二—收益率分布因子构建

创建于 更新于

摘要

报告聚焦基于高频分钟收益率分布特征构建量化投资因子,重点提出收益率噪音偏离因子(nos_gs),其样本内外均表现优异,日频调仓年化收益率超61%,夏普比率高达9.5,样本外延续强势表现,且与常见因子相关性低,显示出良好的特异性和实战价值。研究展示了nos_gs因子的构建方法、投资逻辑及回测表现,为高频因子投资提供了新的选股策略思路 [page::0][page::3][page::8][page::10][page::13][page::14].

速读内容


高频数据与因子构建背景 [page::0][page::3]

  • 高频数据采集于上海和深圳交易所Level-2行情,包含分钟线及逐笔行情。

- 高频因子以日内收益率分布信息为核心,因子计算不依赖收益率时序,消除时间依赖性。
  • 采用非参数统计和异构数据技术应对数据稀疏性和非平稳性问题。


常见收益率分布因子表现 [page::7][page::8]


| 因子名称 | IC均值(%) | 多空年化收益率(%) | 夏普比率 |
|-----------|------------|--------------------|----------|
| rtn5mean | 5.86 | 较高 | 8+ |
| rtn
skew | 良好 | 较高 | 8+ |
| rtnkurt | 3.65 | 较弱 | 8+ |
  • 多数因子夏普比率均超过8,且均显示空头组合贡献为主。

- 因子间时序相关性低至中等,说明可补充信息不同,利于多因子组合构建。

新建收益率噪音偏离因子nosgs构建与有效性 [page::8][page::9][page::10]

  • nosgs基于收益率序列与正态分布的偏离度,反映流动性弱或大额资金介入影响。

- 统计稳健性强,日频调仓多空年化收益率达61.10%,夏普比率9.50,日换手率21.77%。
  • 回测表现稳定,最大回撤9.80%,IC均值5.12%。





因子特异性与正交化处理 [page::11]

  • nosgs与主流收益率分布因子相关性低于0.5,除峰度因子高达0.7。

- 对峰度因子rtnkurt正交化后,得到nosgsn,表现依旧出色,多空年化收益率44.87%,夏普7.37。
  • nosgsn显示更稳定和独立的风险溢价特征。





因子样本外验证与实用性 [page::13][page::14]

  • 样本外(2021年9月至2022年1月)nosgs多空年化收益率67.05%,夏普12.72,最大回撤1.33%。

- 多头与多空组合均无显著回撤,模型稳定性强,展现增量Alpha。
  • 全时段累计IC无下降趋势,因子稳定有效。







量化因子示例—nosgs因子构建概要 [page::9]

  • 基于分钟收益率与标准正态分布的偏离,计算标准化收益率噪音序列。

- 采用统计量衡量该噪音序列的非正态性,得到nos
gs因子值。
  • 使用Box-Cox变换和排序变换消除偏度,之后中性化处理因子市值与行业影响。

- 因子采用日、周、月频调仓策略,日频调仓表现最佳。
  • 回测区间2014年8月至2021年8月,额外测试样本外2021-2022年。


附录-涨跌停对因子表现影响分析 [page::15][page::16]

  • 累计收益率偏度因子cpr_sw显著受涨跌停限制影响,剔除涨跌停后多头收益降幅明显。

- 验证高频因子回测过程需谨慎数据处理,避免涨跌停股票对结果产生偏差。

深度阅读

报告详尽分析与解构



---

一、元数据与报告概览


  • 报告标题:高频研究系列二—收益率分布因子构建

- 分析师:郑兆磊(资深金融分析师,邮箱:zhengzhaolei@xyzq.com.cn,执业编号 S0190520080006)
  • 发布机构:兴业证券经济与金融研究院

- 报告日期:2022年1月23日
  • 研究主题:基于高频数据构建股票日内收益率的收益率分布因子,进一步提出并验证基于收益率噪音偏离正态分布的新型选股因子(nosgs),探讨其有效性、稳定性及样本外表现。


核心观点与结论
  • 高频数据蕴含丰富的股价收益率分布信息,传统基于收益率高阶矩(均值、标准差、偏度、峰度等)的因子固然有效,但未完全挖掘日内收益率的分布特征。

- 本文创新构建了收益率噪音偏离因子(nos
gs),该因子量化了收益率测量误差(噪音)偏离正态分布的程度,表征流动性差或大额资金影响的风险溢价来源。
  • nosgs 因子表现卓越,日内多空年化收益率约61.10%,夏普比率达9.50,信息系数(IC)均值5.12%。样本外近半年时间段持续有效,年化多空收益率67.05%,夏普比率12.72,极小最大回撤(约1.33%),显示优异的稳定性和实战应用价值。

- 该因子与传统收益率分布因子正交化后依然保持良好表现,具备良好的特异性。
  • 风险提示聚焦于模型随市场环境变化可能失效的风险。


整体上,报告传递出高频数据中的细粒度收益率分布信息对选股具有重要价值,nos
gs 因子提供了突破传统因子框架的新思路,展现了显著的Alpha能力,并且经过了严格的样本内外检验验证。[page::0, 3, 8, 13, 14]

---

二、逐节深度解读



1. 前情回顾与高频数据介绍


  • 回顾了2022年1月4日发布的《高频漫谈》,强调了高频因子的构造方法和高频因子的多方面信息提取(分布信息、时间信息、关联信息、另类信息)。

- 描述了Level-2行情数据的多样性和特点,包括分钟K线、快照行情、逐笔行情,本文主要采用基于分钟级Level-2数据构建的因子。
  • 强调了多个高频数据类型的逐步挖掘计划,本文为高频因子研究系列第二篇,聚焦于日内收益率分布因子的构建。

- 指出日内收益率分布(239个样本点/天)信息丰富,但面临稀疏数据和非独立同分布的问题,比如流动性差股票的价格跳动和上行/下行波动率差异显著(图3、图4)[page::3,4]。

2. 日内收益率分布的统计难点与方法论


  • 高频分钟收盘价的非均质性导致基础统计估计难度增加,样本自相关性及非独立同分布挑战突出。

- 提出采用“异构数据加非参数统计量”的方法:
- 先构造非稀疏异构收益率数据,再通过非参数统计量刻画其分布特征。
  • 该步骤为后续构造稳健的收益率分布因子提供技术基础。[page::5]


3. 收益率分布因子的定义与高频因子处理


  • 因子定义基于统计学中对随机变量分布特征的提取,要对收益率序列重排序以排除时间序列顺序的影响,确保因子包含的是分布信息而非时间信息。

- 高频因子构造包含两步:
1. 日内指标的聚合,提取日内收益率分布信息;
2. 日间时序化处理,将高频指标转化为日常因子值。
  • 针对因子值的偏度问题,采取Box-Cox变换和排序变换两阶段处理,确保因子值正态性或正态近似,同时因子进行市值与行业中性化,剔除潜在共性风险。

- 调仓频率设置为日、周、月多种频率,其中日频调仓因能最灵敏捕捉短期信息,作为重点回测对象。
  • 回测期间涵盖2014年8月31日至2021年8月31日较长时间。

- 特别指出涨跌停股票的剔除对于回测的影响显著,统一处理以增强因子有效性和稳定性。[page::5,6,7]

4. 常见收益率分布因子的构建与表现


  • 构造了7个常见的收益率分布因子,包括均值、标准差、偏度、峰度等。

- 这些因子在选股上普遍表现良好,IC值显著,夏普比率多在8以上。
  • 多空收益主要来源于空头组合,表明空头对收益贡献较大。

- 通过时序相关系数分析,发现类似已实现方差的因子高度相关,含有相似的波动率风险。
  • 图5展示了这些因子在多空净值上的累积表现,整体呈稳定增长趋势,验证了收益率分布因子的有效性。

- 该部分为后续新因子对比提供基准。[page::7,8]

5. 收益率噪音偏离因子(nos)构建与逻辑


  • nos 因子的提出基于流动性影响下分钟收益率噪音偏离正态分布的假设。

- 普通股票流动性好,市场上微小投资者众多导致测量误差趋近正态;流动性差股及大额投资者存在导致收益率噪音偏离正态,这对应潜在风险。
  • 该因子反映了市场对风险溢价的需求,nos 越大表明风险溢价越高。

- 利用几何布朗运动假设,将收益率噪音定义为标准化后的收益率残差,旨在测量其偏离正态程度。
  • 提出两种nos估计方法——nosgs与nossw,二者均在统计上稳健,相关系数高(0.906),最终挑选表现更优的nosgs用于实证检验。

- 关联分析表明nos值较大股票存在较高风险溢价,验证了理论的经济意义(表5)。
  • nosgs因子表现优异,2014-2021年回测得出日频调仓多空收益率61.10%,多头12.91%,空头-36.59%,夏普9.50,最大回撤9.8%(主要2015年出现,符合市场大震荡时点),IC均值5.12%(表6,图6、图7)。

- 通过十等分分层图(图8)和持仓权重图(图9)验证了因子选股分层明显且权重分布均衡。[page::8,9,10]

6. nos因子特异性及正交化分析


  • nosgs 与传统收益率分布因子相关性普遍低于0.5,说明它捕获了独特的风险因子。

- 仅与峰度因子(rtn
kurt)相关性较高(约0.7),可能因对时序收益波动同样敏感。
  • 将nosgs与rtnkurt正交化,得到正交因子nosgsn后,依旧表现优秀,多空年化收益率44.87%,多头16.75%(表8,图10、图11),表明nosgs所含信息具备独立的超额收益能力。

- 这种正交过程有效剔除了部分共性风险因子影响,更纯粹地反映涨跌风险溢价。[page::11]

7. 典型股票计算案例


  • 拟选取2021年8月31日日,一支nosgs值最大(600386.SH)和最低(603897.SH)股票做具体分析。

- 最大值股票:600386.SH当日换手率3.20%,收涨4.65%,分钟价格大幅波动,部分集中10分钟内实现,直方图显示收益率明显偏非正态,显示潜在大额资金影响和流动性偏差。(图12、图13)
  • 最小值股票:603897.SH换手率4.54%,收跌-8.35%,收益分布接近正态,价格涨跌幅分散无明显大资金迹象。(图14、图15)

- 该案例形象说明nos
gs因子在捕捉大额投资者行为以及流动性风险方面的有效性。[page::11,12]

8. 样本外表现跟踪


  • 因数据仅覆盖至2021年8月31日,新增2021年9月-2022年1月的样本外测试检验因子稳定性及实用价值。

- 全时段测试显示,nosgs夏普比率保持稳健(约9.63),IC均值持续高位(约5%),多头收益率趋稳(12.73%),多空组合净值稳步上升(图16、图17)。
  • 样本外期间表现更优,多空年化收益67.05%,夏普12.72,最大回撤仅1.33%,并没有发生显著回撤事件,显示因子收益稳定性增强(图18、图19)。

- 强调了nos
gs因子在私募量化基金高回撤阶段仍能力抗风险,证明其实际操作价值。[page::13,14]

9. 总结


  • 高频因子基于分钟收益率分布信息构造具备较强有效性和稳定性。

- nosgs因子作为收益率噪音偏离指标,具备直观经济解释——反映流动性及大额投资者行为对股票风险溢价的影响。
  • 该因子表现出高Alpha、好特异性,且通过多频调仓和样本外验证保证鲁棒性。

- 研究表明高频数据中挖掘收益率分布特征是一条有价值的因子开发思路,适合用于实盘量化投资。
  • 未来前景广阔,后续还将深入探索其他类型高频分布因子。[page::14]


10. 附录:涨跌停股票对回测的影响


  • 重点论述累计收益率偏度因子cprsw的构建及其如何受涨跌停限制影响。

- 示例显示未剔除涨跌停股票时该因子收益显著但剔除后多头收益大幅减少,因子失效,体现了涨跌停限制对高频因子筛选与有效性的潜在干扰。
  • 提醒因子研究需细致处理异常行情及限价机制影响。[page::15,16]


---

三、图表深度解读



图1、图2(第4页)


  • 内容:示例性股票日内分钟收盘价走势及对应收益率分布直方图。

- 解读:分钟价格缓慢波动,收益率分布呈现近似中心集中的特征,但包含尾部扩散,支持使用非参数方法对其分布特征挖掘。
  • 联系文本:形象展示了239分钟样本点构建收益率分布的实证基础和技术挑战。[page::4]


图3、图4(第4页)


  • 内容:流动性差股票分钟价格轨迹及上下行波动率分布。

- 解读:流动性差导致多处价格挂零,非均匀分布;上下行波动率明显不同,支持收益率非独立同分布假设,强调分布特征挖掘复杂性。
  • 联系文本:支持作者构造新因子的理论基础,即需突破传统简单高阶矩量化。[page::4]


图5(第8页)


  • 内容:多个常见收益率分布因子的多空净值累积。

- 解读:rtnkurt表现突出,显著优于均值和方差因子;整体呈线性增长,验证因子长期选股有效性。
  • 联系文本:为后续nos因子表现提供参照,突显nos因子优秀表现在基准之上。[page::8]


表3、表4(第7-8页)


  • 内容:常见收益率分布因子绩效与时序相关性。

- 解读:验证因子选择合理,反映了众多波动率风险因素的不同侧面,同时表明nos因子相关性较低具有特异性。
  • 联系文本:[page::7,8]


图6、图7、图8、图9(第10页)


  • 内容:nosgs因子多空净值与IC表现,以及分位权重分布。

- 解读:因子净值平稳上涨,IC保持正向,表明因子信号强且持久。权重对称分布保证策略风险中性。
  • 联系文本:实证证据支持因子稳定性和选股能力。[page::10]


图10、图11(第11页)


  • 内容:nosgsn(正交后因子)多空净值及IC。

- 解读:正交处理不减弱因子表现,反而多头年化收益提高,说明nos
gs捕获了独特有效信号。
  • 联系文本:验证因子的特异性及超额收益来源。[page::11]


图12—图15(第12页)


  • 内容:样本日最大值和最小值股票的分钟收盘价及收益率分布直方图。

- 解读:高nos值股票表现出明显的价格跳跃和收益率非正态,低nos值股票交易更为“平滑”且接近正态,印证因子的经济含义。
  • 联系文本:具体案例支持因子投资逻辑与监测能力。[page::12]


图16—图19(第13、14页)


  • 内容:nosgs因子全时段与样本外多空净值和IC表现。

- 解读:因子在样本内外均保持收益稳健,样本外表现尤为出色,最大回撤极低,验证策略实用价值。
  • 联系文本:核心论据,证明因子实战可行性。[page::13,14]


图20(第15页)


  • 内容:不同偏度下累计收益率分布示意。

- 解读:偏度影响价格区间分布,左偏股票更可能高价区成交,投资者基于此形成短期预期并驱动价格。
  • 联系文本:为因子构造提供统计学直觉与理论依据。[page::15]


图21、图22(第16页)


  • 内容:累计收益率偏度因子cprsw的10分位净值表现剔除涨跌停前后对比。

- 解读:剔除涨跌停后因子表现明显恶化,回撤扩大,说明涨跌停限制对高频因子回测的显著干扰。
  • 联系文本:提醒因子构建过程中需严谨处理涨跌停效应,保证因子有效性和稳健性。[page::16]


---

四、估值分析



本报告主要属于因子研究报告,强调指标构造与选股效果,不涉及具体公司估值估算、DCF分析或市盈率测算等传统估值方法,不包含目标价或评级调整,故估值部分不适用。

---

五、风险因素评估


  • 模型失效风险:因子基于历史高频数据的统计特征,市场环境改变如流动性结构、交易机制变化等可能导致模型失效,影响因子持续有效性。

- 数据质量与稀疏性风险:流动性较差股票样本稀疏及非独立分布影响因子估计的准确性。
  • 涨跌停限制风险:因涨跌停限制带来的价格非连续性严重影响部分因子的回测结果和现实表现。

- 样本外表现不确定性:尽管报告做了样本外验证,但极端市场情形下(如黑天鹅事件)因子仍可能遭遇回撤。
  • 潜在大额投资者行为复杂性:噪音偏离因子假设大额资金行为无法伪装为正常散户买卖,若实际交易策略变动会影响因子信号有效性。


报告提出风险提示时保持客观,未提供具体缓释措施,呼吁投资者警惕因子受限于市场环境变迁的动态风险。[page::0,17]

---

六、批判性视角与细微差别


  • 报告强调nosgs因子在样本外依旧表现卓越,但样本外区间较短(约4-5个月),未来更长周期验证需持续观察。

- nos因子聚焦于噪音偏离正态的统计特征,虽具特异性,但因子对市场微结构和宏观波动敏感,可能需要结合其他因子共用以降低偶发风险。
  • 对涨跌停股票的统一剔除虽然保证了因子稳定性,但交易限制本身也是市场实际存在部分,完全剔除可能导致实际操作时的现实偏差。

- 报告没有详细讨论因子实施成本、交易成本及滑点对因子收益率的影响,实际应用中相关成本需评估。
  • 强调nos与峰度因子相关性偏高,提示因子风险敞口部分重复,后续研究中需注意风险敞口管理与多因子组合优化。

- 报告措辞谨慎,数据充分,实证详实,整体结构完整严谨,支持逻辑自洽。

---

七、结论性综合



本报告系统地阐述了如何基于中国市场的上交所和深交所Level-2分钟级高频数据构建和挖掘股票日内收益率的分布特征因子。报告开篇说明了高频数据的特点与挑战,指出传统收益率高阶矩因子虽有效但未能充分捕捉分布潜在信息。通过非参数统计方法和异构数据处理,提出了创新指标——收益率噪音偏离因子nos
gs。

通过数学建模与统计检验,报告展示了nosgs因子——衡量收益率噪音偏离正态分布的程度,作为流动性差及大额资金影响的风险代理。实证结果表明该因子具有极高的选股能力和超额收益率,表现出的年化多空收益率和夏普比率均远超常见传统因子。同时,因子的IC值稳定且权重分布合理,显示出极强的稳健性和实战价值。其与传统收益率分布因子呈低相关性,且正交处理后依然保持强劲表现,进一步验证了特异性。

样本外测试覆盖2021年9月至2022年1月期间,高频市场环境复杂且私募量化基金回撤较大,nos
gs因子在此阶段依然展现良好抗风险和赚钱效应,最大回撤极低,因子信号持续有效。附录对于涨跌停股票的剔除影响进行了深入探讨,表明细节处理对高频因子研究至关重要。

图表层面,收益率分布的直方图、净值曲线、IC走势和权重分布图形成了全面支撑,生动展示因子的投资逻辑与效果。典型样本个股的收益率分布特征直观印证理论依据,赋予了统计指标明确的经济含义,增强了报告的说服力。

总体而言,本报告开拓了高频数据在因子开发中的新视角,提出的nosgs因子凸显了对流动性风险和隐含大额资金行为的捕捉能力,具备较强的Alpha持续生产力和低相关性优势。该研究成果对量化选股策略构建及高频数据的深度利用有重要指导意义,同时也提示关注市场环境变化与交易限制对模型稳定性的潜在影响。

以上分析力图全面涵盖报告主要内容及图表论据,确保结构严密、信息丰富、洞见深刻。该报告是高频因子研究领域内极具参考价值的一篇创新力作。[page::0,3-16]

---

参考图表示例



(示例性部分图表链接呈现,图片按报告相对路径呈现)
  • 图1 某股票日内分钟收盘价走势


  • 图2 某股票分钟收益率分布


  • 图6 nos因子多空净值


  • 图16 nosgs因子多空净值(全时段)


  • 图18 nosgs因子多空净值(样本外)


  • 图21 cprsw因子10分位等权组合净值(不剔除涨跌停)


  • 图22 cpr_sw因子10分位等权组合净值(剔除涨跌停)



---

以上为本报告的详尽分析与解构,对每个章节及图表均做透彻分析,充分体现了报告的逻辑结构、数据支撑和投资价值,供投资者和研究员参考。

报告