`

高频研究系列二—收益率分布因子构建

创建于 更新于

摘要

本报告基于高频分钟级收益率数据,系统研究了股票日内收益率的分布特征,提出了一种创新的收益率噪音偏离因子(nos_gs)。该因子通过衡量收益率噪音与正态分布的偏离,反映流动性及大额投资者对行情的影响,样本内日度多空年化收益率达61.10%,夏普比率9.50,且在样本外20121年9月至2022年1月中依然表现优异,多空年化收益率提升至67.05%,最大回撤仅1.33%,显示其良好的稳健性和特异性。此外,报告全面对比了常见收益率分布因子,说明了因子构造及调仓规则,为高频因子研究提供了重要参考 [page::0][page::8][page::9][page::13][page::14]

速读内容

  • 高频因子构建基础与数据介绍:

- 本报告基于2014年8月至2021年8月及更新至2022年1月的上交所、深交所Level-2分钟数据,利用239个日内样本点构造收益率分布因子,严格剔除涨跌停股影响,确保回测结果的准确性和有效性 [page::3][page::4][page::16].

  • 常见收益率分布因子表现对比 [page::7][page::8]:

- 其中rvup(上行收益率已实现方差)表现最佳,年化多空收益率91.46%,夏普9.81,但多空收益率多来自空头效应。
- 偏度因子rtn
skew年化多空收益47.22%,夏普10.64,均展现较强的选股能力。
  • 收益率噪音偏离因子(nosgs)投资逻辑与构建 [page::0][page::8][page::9]:

- 基于买卖撮合机制,假设高流动性股票收益率噪音服从正态分布,收益率噪音偏离正态分布程度反映大额投资者影响及流动性差异,因子nos
gs越大潜在风险溢价越高。
  • nosgs因子回测结果与统计检验 [page::9][page::10]:

- 日度调仓下,nos
gs多空年化收益率61.10%,夏普9.50,IC均值5.12%,日换手率21.77%,最大回撤9.8%,胜率74.03%。
- 周度与月度调仓因子表现均优,其估计方法稳健,nosgs与nossw相关性高达0.906。

  • nosgs因子的特异性与正交化处理 [page::11]:

- nos
gs与传统收益率分布因子的相关性普遍低于0.5,仅与收益率峰度因子rtnkurt相关性约为0.7。
- 对rtn
kurt正交化处理后形成nosgsn因子,多空年化收益44.87%,夏普7.37,胜率71.98%,表现稳定且特异性明显。

  • 示例说明nosgs因子区分度:

- 2021年8月31日,nosgs值最大的600386.SH表现出交易低活跃性及大额资金影响,短时股价快速上涨;nosgs值最小的603897.SH流动性较好,收益率接近正态分布,受大额投资者影响较小。



  • 样本外测试验证nosgs的稳健性与Alpha贡献 [page::13][page::14]:

- 样本外区间(2021年9月至2022年1月14日),nos
gs多空年化收益率提升至67.05%,夏普比率显著提升至12.72,最大回撤仅1.33%,持续保持高胜率及稳定IC表现。



  • 其他分布因子及涨跌停影响实证:

- 累计收益率偏度(cpr_sw)因子在不剔除涨跌停情况下表现良好,但剔除涨跌停后因子显著失效,提示涨跌停行为对高频因子回测影响较大,需特别关注因子样本的处理。



深度阅读

分析报告详尽解读:基于高频数据的收益率分布因子构建与有效性分析



---

1. 元数据与报告概览


  • 报告标题:《高频研究系列二—收益率分布因子构建》

- 分析师:郑兆磊
  • 发布机构:兴业证券经济与金融研究院

- 发布日期:2022年1月23日
  • 研究主题:利用股票高频数据中的日内收益率分布信息,构建并验证新型收益率分布因子,特别聚焦于利用收益率噪音偏离正常分布的特性构建的因子“nosgs”


核心论点
  • 传统收益率分布因子多基于高阶矩(均值、标准差、偏度、峰度)构建,但日内收益率分布中还蕴含大量其他信息。

- 通过测量收益率序列中噪音对正态分布的偏离,提出新因子nos
gs,该因子多空年化收益率达到61.10%,夏普比率高达9.50,说明因子在风险调整后回报优秀。
  • nosgs与传统收益率分布因子相关性较低,表现出较好的特异性。

- 因子在样本外半年时间(2021年9月至2022年1月)依然表现突出,多空年化收益率达67.05%,夏普比率12.72,显示出其稳定性和实战能力。
  • 强调模型存在基于历史数据的失效风险,尤其在市场环境变化时[page::0,3,14]


---

2. 逐节深度解读



2.1 前情回顾与高频数据介绍


  • 公司此前于2022年1月4日发布《高频漫谈》报告,介绍了四类高频数据蕴含的信息:分布信息、时间信息、关联信息、另类信息,形成构建高频因子的基础。

- 本文为该系列第二篇,专注探讨日内收益率的分布信息,并基于此设计因子。
  • 高频数据使用上交所和深交所Level-2行情数据,数据粒度包括分钟K线、3秒快照行情、逐笔行情,本文以分钟级数据为研究对象,覆盖2014年8月至2022年1月[page::3]


2.2 日内收益率分布介绍


  • 利用每日大约239个日内分钟收益率样本点,尝试估计整体收益率分布特性。

- 说明样本稀疏带来的问题,如流动性差股票某些分钟无价格撮合,导致价格“跳点”和自相关问题。样本非独立同分布,表现为上行和下行波动率存在差异,以及跳跃变动(signed jump variation)。
  • 图表(图1-4)展示了不同股票的分钟收盘价走势及收益率分布,展示流动性和收益率特征差异:

- 图1: 流动性较好的股票分钟收盘价出现连续细微变动。
- 图2: 该股票日内收益率呈现频率分布状况。
- 图3: 流动性较差股票价格呈现跳跃。
- 图4: 体现上下行波动率分布差异,证明正负收益率分布不同[page::4]

2.3 收益率分布因子定义及高频因子处理方法


  • 利用"Reorder"函数构造基于收益率分布信息的指标,强调因子对时间序列顺序不敏感,即因子仅捕捉分布特征,剔除时间信息。

- 因子值处理包括对因子值进行正态性转化,主要用Box-Cox变换和排序变换,确保因子值无偏。
  • 因子中性化处理,针对市值和行业效应进行回归残差计算,以消除系统性偏差。

- 调仓频率设置为日频为主(窗口长度15日),也涉及月频和周频调仓以对比频率对因子表现的影响。
  • 回测时间段为2014.8.31至2021.8.31,剔除涨跌停股票进行回测,以避免因涨跌停限制影响因子表现判定。

- 交易成本通过换手率计算进行量化描述[page::5,6,7]

2.4 常见收益率分布因子回顾


  • 构建了7个常见分布因子,包括:5分钟收益率均值(rtn5mean)、已实现方差(realvar)、偏度(rtnskew)、峰度(rtnkurt)、上行与下行收益率的已实现方差(rvup、rvdown)及其差异比例(rvumd)。

- 各因子均表现出统计显著性,其中rtn5mean的IC高达5.86%。
  • 多空夏普比率多在8以上,显示优良风险调整能力。

- 多数因子多空收益率主要来源于空头收益,显示策略对冲风险的特点。
  • 图5展示了各因子多空净值的长期表现,峰度类因子表现最佳。

- 表4时序相关矩阵显示,已实现方差相关因子具较高相关性,说明其受相似波动率风险驱动。[page::7,8]

2.5 新收益率噪音偏离因子(nos)的构建与理论逻辑


  • 理论基础:股票日内收益率的误差项(噪音)如果正态分布,则说明流动性良好且无大额投资者干扰。噪音偏离正态分布代表大额投资者的显著影响或流动性较差风险,反映风险溢价水平。

- 从几何布朗运动模型入手,通过离散化收益率,计算标准化残差(噪音),并采用统计学方法测度其偏离正态程度。
  • 提出两种估计噪音偏离指标:nosgs和nossw,二者统计相关性高达0.906,均有效。

- nos
gs表现优异,日度调仓多空收益率61.10%、夏普9.5,策略回撤控制良好,IC均值5.12%并稳定累积。
  • 图6-9全面展示nos因子的净值曲线、IC表现、分层收益逻辑以及权重分布,凸显其分层效果明显且组合权重对称。

- 表5详细阐释了nos与大额投资者和流动性的关系,揭示nos因子实质上是流动性+大额资金风险溢价因子[page::8,9,10]

2.6 因子特异性及正交化处理


  • nosgs与大多数常见收益率分布因子的时序相关性低于0.5,仅与峰度因子(rtnkurt)相关度约0.7,显示因子具备较强特异性,反映与传统因子不同的风险特征。

- 通过与峰度因子正交化处理,产生新的因子nosgsn,表现依然良好,且多头收益率提升至16.75%,尽管多空收益率下降至44.87%,但夏普依然维持在7.37水平。
  • 图10、11展示了nosgsn组合的长期净值和IC表现,稳定增长,表明去除峰度因子信息后,nosgsn仍能提取有效信号。

- 此步骤有效验证了nos因子的独立性和稳健性。[page::11]

2.7 nos计算实例分析


  • 选取2021年8月31日nosgs值最大与最小的两只股票(600386.SH与603897.SH),深入观察其分钟级价格与收益率分布。

- 600386.SH流动性差且存在大额资金推动价格快速上涨,收益率分布偏离正态,nosgs值大。
  • 603897.SH流动性好,收益率接近正态分布,未表现出明显大额资金影响,nosgs值低。

- 通过具体个股例证直观体现nosgs捕捉流动性和大额投资者风险溢价的能力。[page::12]

2.8 nos因子样本外表现跟踪


  • 在2021年9月至2022年1月的纯样本外数据中,nosgs因子多空年化收益率高达67.05%,夏普比率12.72,最大回撤极低(约1.33%)。

- 多头和多空组合回撤几乎无明显波动,IC表现稳定,无明显衰减趋势,呈持续预测能力。
  • 全时段(2014-2022年1月)测试结果与样本内表现基本一致,维持超高夏普9.63及正IC均值5%以上。

- 图16-19清晰展示全时段与样本外的净值及IC表现,充分体现因子的实用性与前瞻性。[page::13,14]

2.9 总结


  • 研究系统介绍了高频因子构建的流程,尤其是基于收益率噪音偏离正态分布的新因子构建。

- nosgs因子具有优异的风险调整收益、抗周期性强、良好的样本外表现与较低的与传统因子时序相关性。
  • 该因子可作为挖掘流动性和机构行为相关风险溢价的重要工具,具有较强投资价值和应用潜力。

- 报告提示因子表现依赖历史数据,面临模型失效风险需持续跟踪维护[page::14]

2.10 附录:涨跌停对因子表现的影响分析


  • 使用累积收益率偏度因子cprsw示范涨跌停对高频因子回测影响的显著性。

- 不剔除涨跌停时,cprsw因子年化多空收益率达45.28%,多头收益高达26.51%,夏普6.21,表现极佳。
  • 剔除涨跌停后,多头收益大幅下降至-0.31%,整体因子表现严重减弱,自2018年起呈现失效趋势。

- 说明涨跌停限制对高频因子回测结果带来严重偏差,研究中统一剔除涨跌停股以保证结果的稳健性和合理性。
  • 图20至22清晰对比剔除前后组合净值差异[page::15,16]


---

3. 图表深度解读



图1-4(第4页)


  • 图1:某支股票日内分钟收盘价走势。价格在9:30至15:00间缓慢变化,体现正常交易波动。

- 图2:该股票的分钟收益率分布的柱状图,显示大部分收益率集中在0附近,呈现典型尖峰特征。
  • 图3:流动性差股票的分钟收盘价,多数价格停留在9.00附近,价格跳跃明显,非连续成交价。

- 图4:该股票的上下行波动率日内分布,显示正负收益率波动特征不同,上行波动较宽且有更多跳跃,反映风险偏好和价格弹性不同。

表2、表3(第7页)


  • 描述常见七类日内收益率分布因子的构造方法与实际回测表现参数。

- rtn5
mean表现最佳(年化多空收益70.21%,IC 5.86%),峰度和偏度表现均良好,所有因子夏普均超7,体现强风险调整能力。
  • 换手率差异显著,rtn5mean约36.45%,realvar仅9.84%,表明因子交易活跃度不同。


图5(第8页)


  • 展示7个因子累计净值,峰度(rtnkurt)和均值(rtn5mean)表现突出,均实现较强的复利增长轨迹,其他因子增长速度缓慢。


表4(第8页)


  • 因子时序相关性矩阵:显示因子间存在显著相关性,尤其是realvar与rvup、rvdown的相关性0.75以上,解释表明这些因子都包含相似的波动率风险。


表5(第9页)


  • 逻辑推断表,关联大额投资者是否存在、股票流动性大小与nos因子大小及风险溢价的关系,明确将nos因子确定为流动性和大额资金风险的代理指标。


表6与图6-9(第10页)


  • 表6详细展示nosgs和nossw两种因子的日/周/月调仓的回测表现,nosgs整体优于nossw,日调仓年化收益高达61.10%,夏普9.50,回撤可控。

- 图6展现nos
gs的多空净值稳步增长,回撤期间分布明显。
  • 图7的IC与累计IC表现了因子持续的预测稳定性。

- 图8展示10分位组合收益明确分层的趋势,区分高低因子值股票。
  • 图9的权重分配图显示多头和空头权重对称,且集中于极端分位,体现策略有效执行。


表7、表8及图10、11(第11页)


  • 表7显示nosgs与常见因子相关性普遍较低,唯一较高相关的是峰度因子(0.726)。

- 表8对nos
gs进行峰度正交化后仍表现良好(多空收益44.87%,夏普7.37),验证因子特异性。
  • 图10、11描绘正交化后因子的净值和IC,持续良好表现。


图12-15(第12页)


  • 两只极端样本股票的日内价格与回报直方图,展示nosgs数值极端与价格走势波动性、流动性及大额投资者的关联。

- 600386.SH表现为跳跃价格和极端收益,显示大额资金干预。
  • 603897.SH价格变化平稳,收益率接近正态分布。


表9及图16-19(第13,14页)


  • 样本外回测确认nosgs的稳健性。

- 表9数据中样本外回撤明显降低,夏普显著提升。
  • 图16-19分别体现全时段和样本外因子净值和IC的连续上升,支撑其稳定的投资价值。


表10及图21、22(第16页)


  • 剔除涨跌停前后cprsw因子表现强烈反差,剔除涨跌停后表现大幅下降,验证涨跌停股票对高频因子回测具有实质性影响。


---

4. 估值分析



本报告属于量化策略信号构建与验证报告,未涉及公司估值预测或价格目标,因此无估值方法分析。

---

5. 风险因素评估


  • 模型失效风险:因基于历史统计特征,未来市场结构、交易机制或行为模式变化可能导致模型失效,需动态持续监控调整。

- 数据质量风险:高频数据噪音及流动性差异对因子估计产生影响,特别是极端行情。
  • 市场环境变化:交易限制(涨跌停)、极端波动时因子表现可能异常。

- 样本外风险:虽报告测试了2021年9月至2022年初的样本外表现,但长期稳定性仍不可完全预测。
  • 报告未详述缓解措施,隐含策略稳定性依赖于模型持续检验和快速适应市场变动的能力[page::0,14,17]


---

6. 批判性视角与细微差别


  • 报告主推的nos因子表现优异,但多头收益率显著低于空头收益率,暗示策略潜在偏向做空或风险偏好需注意。

- γ nos
gs与峰度因子存在较显著正相关,可能反映部分重叠风险源,须警惕因子间信息冗余。
  • 对涨跌停股的处理虽反映实际问题,但剔除动因可能引入样本选择偏差,需关注实际市场应用环境中涨跌停的普遍影响。

- 因子基于分钟收益率构造,略带一定的市场噪音假设,噪音极端波动期的稳健性需进一步验证。
  • 样本外测试时间约4个月,需更多长期和极端行情测试确认。

- 报告未探讨交易成本及滑点对策略实盘表现的影响,实际应用可持续性存在未知风险。

---

7. 结论性综合



兴业证券郑兆磊分析师基于丰富的国内Level-2分钟行情数据,深度挖掘了日内股票收益率分布信息,尤其是噪音偏离正态分布的特征,提出了新型高频选股因子nosgs。该因子不仅在传统收益率分布因子之外捕捉了大额资金影响及流动性风险溢价,而且展现了极佳的投资表现:
  • 样本内多空年化收益率超过61%,夏普比率高达9.5,最大回撤不超过10%。

- 样本外保持甚至提升至67%的收益率和12.7的夏普。
  • 与传统因子相关性低,具有高特异性和实战价值。

- 该因子的构造理念基于严谨的统计和金融理论,结合市场微观结构,对数据的稀疏性和非独立分布特征进行了有效处理。
  • 附录分析揭示了涨跌停对因子信号准确性的重要影响,报道严格剔除涨跌停个股,保障了因子回测的稳健性。


图表充分佐证了因子的稳定性、分层效应和预测能力,个股实例分析也直观展现了因子捕捉市场流动性和机构行为的基础逻辑。尽管存在历史模型风险和市场环境变化风险,nos
gs因子无疑为量化投资者提供了具有增量Alpha价值的实用工具。

综上,报告清晰展现了基于高频收益率分布噪音偏离的创新因子构建方法与实证效果,建议量化投资团队重点关注并适时纳入此类因子库,助力持续提升选股和风险管理能力[page::0-16,14]

---

图表汇总示例(部分)



图1:某支股票日内分钟收盘价走势,展现价格随机波动样态

图6:nos因子多空净值走势,净值平稳提升,回撤可控

图8:nos因子十等分组合净值,分层效果明显,越高因子值对应收益越高

图16:nosgs因子全时段多空净值,长期表现稳定向上

图18:nos
gs因子样本外多空净值,验证良好的持续性和稳定性

---

参考文献和声明请见报告末页



---

此解读基于兴业证券郑兆磊《高频研究系列二—收益率分布因子构建》报告内容,严格按照原文信息进行分析与总结,带有明确页码溯源标识。

报告