`

选股因子系列研究(四十)——预期因子的底层数据处理

创建于 更新于

摘要

本报告深入研究一致预期因子的底层数据处理方式,通过对比平滑算法、锁定最新年度算法及锁定财务年度算法三种方法,评估其对预期ROE、净利润(NP)、净利润同比增速(NPG)及两年复合增速(G)因子有效性的影响。结果显示,锁定财务年度算法在因子IC表现、因子溢价及多空组合收益等方面表现最优,尤其在多空收益的极值组合特征上优势显著。同时平滑算法在因子多头信息比上略胜,表现更稳定。综合评估,锁定财务年度算法更适合全面因子应用,平滑算法适合关注单因子多头效应的策略构建。[page::0][page::4][page::6][page::8][page::11]

速读内容

  • 研究背景与因子对象概述 [page::0][page::4]

- 因子涵盖了预期ROE、净利润(NP)、净利润同比增速(NPG)以及两年复合增速(G),这些是分析师预测的核心盈利及成长指标。
- 所有因子均采用时间序列标准化处理,确保数据可比。
  • 三种底层数据构建方式比较 [page::4][page::5][page::6]

- 平滑算法:结合不同财务年度预测值进行加权,确保因子数据代表未来一年预期,特点是数据平稳,但信息复杂。
- 锁定最近年度算法(T1):选取当前时点针对最近一个财务年度的预测值,普遍使用,数据准确性较高但存在跳跃波动。
- 锁定财务年度算法(Report):选取所有时点均对应同一财务年度预测值,数据年度一致,逻辑严密,稳定性与预测准确性兼顾。
  • 因子IC表现对比(来源表格与统计) [page::5][page::6]


| 因子 | 算法 | 原始均值 | 正交IR | 胜率 |
|-------|--------|----------|-------|-------|
| G | 平滑 | 0.030 | 2.114 | 0.716 |
| | T1 | 0.030 | 2.085 | 0.716 |
| | Report | 0.030 | 2.088 | 0.745 |
| ROE | 平滑 | 0.044 | 2.286 | 0.680 |
| | T1 | 0.045 | 2.453 | 0.660 |
| | Report | 0.039 | 2.707 | 0.699 |
| NP | 平滑 | 0.046 | 2.097 | 0.676 |
| | T1 | 0.044 | 2.167 | 0.647 |
| | Report | 0.041 | 2.617 | 0.696 |
| NPG | 平滑 | 0.023 | 1.390 | 0.657 |
| | T1 | 0.028 | 1.715 | 0.696 |
| | Report | 0.032 | 2.017 | 0.676 |

- 绝大多数情况下,锁定财务年度算法在IR和胜率方面表现最佳,尤其对ROE和NP因子。
  • 因子溢价表现(均值及T统计量) [page::6]

- ROE、NP、NPG三因子锁定财务年度算法因子溢价最高,且显著性最强。
- G因子表现三种算法差异较小。
  • 因子分组收益与多空收益表现 [page::6][page::7]

- 十分组收益反映因子具有良好单调性,锁定财务年度算法多空胜率最高。
- NP因子多空收益优势明显,体现其卓越的选股能力。

  • 因子溢价时间序列表现 [page::7][page::8]

- 以NP因子为例,锁定财务年度算法溢价维持稳定上升趋势,超越锁定最新年度和平滑算法。


  • 因子多空组合表现及多头效果 [page::8][page::9][page::10]

- 多空净值走势显示锁定财务年度(NP、ROE)多空组合表现优于其他算法,体现极值组合效应。


- 多头组合年化超额收益超过10%,胜率均在65%以上,平滑算法信息比稍优,多头效应更稳定。
| 因子 | 算法 | 年化超额收益 | 胜率 | 信息比 |
|------|-------|--------------|-------|--------|
| ROE | 平滑 | 10.5% | 68.0% | 1.874 |
| | T1 | 11.2% | 66.0% | 1.783 |
| | Report| 10.8% | 69.9% | 1.664 |
| NP | 平滑 | 12.1% | 70.9% | 1.987 |
| | T1 | 11.6% | 68.9% | 1.938 |
| | Report| 12.3% | 69.9% | 1.875 |
  • NP单因子策略长期表现 [page::10]

- NP因子多头组合相对基准表现稳健,累计连续超额收益趋势明显。

- 年度超额收益正向贡献大多数年份,2014年仅在report算法略跑输基准。
| 年份 | 平滑 | T1 | report |
|-------|-------|-------|--------|
| 2010 | 5.3% | 11.3% | 11.3% |
| 2011 | 6.1% | 3.6% | 6.9% |
| 2012 | 9.2% | 12.9% | 11.9% |
| 2013 | 35.0% | 19.8% | 30.4% |
| 2014 | 8.5% | 7.9% | -0.1% |
| 2015 | 14.0% | 9.6% | 16.5% |
| 2016 | 3.7% | 2.2% | 1.9% |
| 2017 | 18.0% | 23.2% | 25.8% |
| 2018.09| 9.9% | 12.0% | 6.4% |
| 年化 | 12.1% | 11.6% | 12.3% |
  • 结论总结及建议 [page::11]

- 推荐采用时间序列标准化的预期调整因子,锁定财务年度算法整体表现最佳。
- 平滑算法多头组合信息比高,适合关注单因子多头策略。
- 风险提示包括流动性风险、模型失效风险及因子失效风险。

深度阅读

资深解读报告:《选股因子系列研究(四十)——预期因子的底层数据处理》



---

一、元数据与概览



报告标题:《选股因子系列研究(四十)——预期因子的底层数据处理》
作者:冯佳睿、郑雅斌
发布机构:海通证券研究所
发布日期:2018年10月12日
分析主题:本报告围绕一致预期因子底层数据的处理方法,通过比较三种不同的因子构建算法,系统评估其对选股策略有效性的影响,因子涵盖预期ROE、净利润(NP)、净利润同比增长率(NPG)及两年复合净利润增速(G)。
核心信息:报告指出,在预期因子处理中,基于时间序列的标准化是关键,三种底层因子构建方法(平滑算法、锁定最近年度和锁定财务年度)中,锁定财务年度算法综合表现最优,尤其在多空收益和因子溢价方面优势明显。但若关注单因子多头效应,平滑算法更稳定且信息比最高。报告也提醒需关注流动性风险、模型失效及因子失效等风险点。整体旨在指引投资者对预期数据进行合理使用,提高策略与因子信号的稳定性和有效性。[page::0,4,11]

---

二、逐节深度解读



1. 一致预期因子的处理方法


  • 内容总结:报告首先明确关注的基础预期因子为ROE、NP、NPG、G四类,保持了预期数据经过历史时间序列标准化处理,确保跨个体数据可比。该部分重点探讨如何基于不同时间点的分析师预测,选取不同财务年度的预期数据构成底层因子。
  • 三种因子构成方法

1. 平滑算法:通过对多个财务年度的预测值加权,缓解数据跳跃,使因子始终反映未来一年的预期,减少因财务年度切换导致的“突变”现象,但因子含有的未来信息结构较复杂,解释不够直观。
2. 锁定最近年度(T1):每个时点采用分析师预测的最近一个财务年度的值,例如2018年全年主要使用2018财年的预测,准确性高且易理解,但因基础数据年度随时间滚动而变化,导致数值波动较大。
3. 锁定财务年度(Report):所有时点的底层数据均针对同一财务年度(如2018年),观察对该年预期的时序变化,有逻辑清晰和数据对比上的优势,但有时需要用到未来2-3年的预测,降低因子准确度且存在数据缺失风险。
  • 逻辑阐述:三种方法各有优劣,平滑减少跳跃但解释复杂;锁定最近年度反映最受关注、准确度最高的预测;锁定财务年度则从时间序列一致性和预期变动跟踪角度出发,能更准确体现预期对个股影响的动态,尤其适合因子研究。[page::4,5]


2. 预期因子的综合表现对比



2.1 因子IC表现


  • 内容总结

利用表1对比三种构建法的Rank IC(排序相关系数)和正交后因子IR(信息比率)表现。总体看,锁定财务年度算法在大部分因子中IR最高,尤其是ROE、NP、NPG三个因子表现显著优于其他两种方法。唯一例外是成长因子G,该因子的IR最高不在“report”,原因是它需使用未来3年的预测数据,准确性较低。
  • 关键数据点解读

- 以ROE因子正交后的IR为例,锁定财务年度算法IR达2.707,明显领先。
- NP因子正交IR最高为2.617,同样锁定财务年度表现突出。
- 因子胜率即正向预测概率也相对最高,说明锁定财务年度方法更有效稳定。
  • 逻辑分析:锁定财务年度算法能够更好地剥离其他风格或基本面因素干扰,捕获预期变动带来的真实信号,提供更具预测能力的因子表现。[page::5,6]


2.2 因子溢价


  • 将因子单独纳入多因子模型回归以考察因子溢价,游客查看表2数据显示:

- ROE、NP、NPG三因子锁定财务年度算法T值均最高,溢价均值亦处于领先位置。
- 因子G表现相近,三种方法差异不明显,符合其预测准确率受限的特点。
  • 解释:溢价均值反映因子对收益的平均贡献,T统计量则体现显著性。锁定财务年度方法提高了因子的解释力与显著性。[page::6]


2.3 因子分组收益


  • 因子被分为十分组,计算各组月均收益及多空收益,表3及图1展示:

- 尤其是锁定财务年度算法的多空收益和胜率最高,分组收益呈稳健的上升趋势,体现因子单调性好。
- 以NP和G因子为例,两者十分组收益表现均符合预期,NP因子多空收益更突出。
  • 意义:丰富了因子实证维度,不仅看关联性,也体现了因子在实际选股上的可操作性和风险调整后的收益优势。[page::6,7]


3. 因子时间序列表现



3.1 因子溢价时间序列表现


  • 图2和图3显示锁定财务年度算法相比锁定最新年度和平滑算法在NP因子溢价的时间序列表现上持续稳健,累计溢价处于领先,说明锁定财务年度的因子溢价不单是平均水平优越,且在时间维度上表现稳定。


3.2 因子多空收益时间序列


  • 图4和图5以NP和ROE因子多空净值走势呈现,

- 锁定财务年度方法的多空组合净值明显优于其他两种,体现出更强的极值组合能力(即选出表现最好的和最差的股票组合收益能力)。
- 锁定最近年度算法多空净值波动较大但部分阶段趋近于锁定财务年度。
  • 解读:虽因子溢价差异不大,但多空收益是投资实际操作收益的核心指标,锁定财务年度算法为投资者提供更稳健的做多和做空信号。


3.3 因子多头时间序列走势


  • 表4和图6展示了多头组合的年化超额收益、胜率及信息比。

- 平滑算法在多头组合中信息比最高,表明其多头组合波动风险较低,表现稳定。
- 所有算法的多头组合超额年化收益均超过10%,胜率均超65%,单因子表现极为突出。
- NP因子在所有年份里表现尤为稳定,即使在市场风格切换期也能保持正向超额收益。
  • 事实上,单因子的多头组合表现与市场基准相比有明显的相对强度,证明因子在实盘应用中的竞争力和稳定性。[page::9,10]


4. 结论与风险提示


  • 结论归纳

- 时间序列标准化预期调整因子处理方法推荐;
- 三种底层因子构成方法对比显示,锁定财务年度算法综合表现最佳,尤其体现在IR、因子溢价和多空收益的时间分布上;
- 但若重视单因子多头的组合稳定性与信息比,平滑算法有其独特优势;
- 成长因子G因涉及远期数据,预测准确度偏低,表现弱于其他因子。
  • 风险提示

- 流动性风险,模型及因子失效风险均需关注,避免因数据异常或风格转变导致策略失效。[page::11]

---

三、图表深度解读



图1:NP因子和G因子十分组收益(2010.03-2018.09)



图1 NP因子和G因子十分组收益
  • 描述:图中柱状图展现NP因子(蓝色)和G因子(红色)以“报告”算法分为10个分组的月均收益。

- 趋势解读
- NP因子收益随着分组顺序基本呈现稳定的向上趋势,从最低约0.1%上升至最高近2.0%;
- G因子同样表现单调性,尽管顶层分组收益略低于NP因子,但整体单调上升趋势明显。
  • 联系文本:支持了“报告”算法下因子具良好排序能力与稳定超额收益的论断。[page::7]


图2与图3:因子溢价时间序列表现比较



图2 锁定财务年度 VS 锁定最新年度因子溢价

图3 锁定财务年度 VS 平滑因子溢价
  • 描述:两图均为NP因子不同算法下因子溢价及其累计溢价的时间序列表现,柱状图为溢价波动,折线图为累积走势。

- 趋势解读
- 图2显示锁定财务年度(深蓝色线)优于锁定最新年度(浅蓝色线),累积溢价拉开差距明显;
- 图3类似,锁定财务年度较平滑算法(浅灰线)常年跑赢,尽管差距不大。
  • 联系文本:验证锁定财务年度算法因子溢价稳健且优于常规方法的结论。[page::8]


图4与图5:因子多空净值走势



图4 NP因子多空净值走势

图5 ROE因子多空净值走势
  • 描述:展示不同算法下,NP和ROE因子的多空净值累计走势,基准为初始值1。

- 趋势解读
- 两个因子均显示锁定财务年度算法净值累计最高,曲线明显在最上方;
- 平滑算法的净值较低,锁定最近年度算法净值虽前期接近锁定财务年度,但后期出现滞后。
  • 联系文本:表现锁定财务年度算法提供的极值组合收益优势明显,提升实操组合的收益潜力。[page::9]


图6:NP因子多头组合VS基准指数走势



图6 NP因子多头VS基准走势
  • 描述:图中对比NP因子多头组合净值与市场全市场等权基准指数净值走势。

- 趋势解读
- 三种算法下的多头组合净值均稳步上扬,累计收益显著跑赢基准指数;
- “报告”算法表现略好于“锁定最近年度”及平滑算法,说明其优越的多头超额收益稳定性。
  • 分析:强调表4中的年化超额收益数据实际对投资者具有参考价值。[page::10]


---

四、估值分析



本报告属因子研究性质,未涉及传统公司价值估值模型(DCF、市盈率等),重心在因子构建和策略有效性抽样验证,重点通过因子预测能力和因子投资组合表现来评估方法合理性。[page::整篇]

---

五、风险因素评估


  • 流动性风险:因部分因子/股票深度有限,市场流动性不足时或影响因子效果;

- 模型失效风险:因子模型依赖历史数据和统计关系,市场结构变化可能导致模型效果下降;
  • 因子失效风险:一致预期数据本身可能因预测错误、分析师行为变化而失效,影响因子信号准确性。

报告未明确给出风险缓解策略,但提醒投资者应注意策略的动态调整与风险控制。[page::0,11]

---

六、批判性视角与细微差别


  • 报告充分展示了三种主流数据处理方式,结论大体合理且基于充分实证,但存在以下痕迹:

- 对于成长因子G因涉及未来较远预测,准确性不足的认定较为保守,未提出改进方案;
- 平滑算法虽稳定但信息比表现优异,却被综合表现指标略微低估,报告重视极值组合表现或许轻视部分稳健多头特征;
- 风险提示部分较为简略,未深入探讨实际操作层面的具体风险管理措施;
- 表格中的部分数据未一一解释,部分变量定义(如“方差IR”具体计算详解)缺乏,略显学术化,可能阻碍非专业读者理解。

整体看,报告专业严谨,结构清晰,结论和图表内容相符,未发现显著逻辑矛盾。[page::5,11]

---

七、结论性综合



本报告通过对预期因子底层数据不同构建策略的系统比较与深入分析,提出了:
  • 统一预期因子建议处理方式是利用时间序列标准化技术进行预期调整,确保因子在量纲和时间序列上的可比性与稳定性;

- 底层数据构建方面,锁定财务年度的算法表现最优,整体因子IC、因子溢价、因子多空收益、时间序列稳定性均表现领先,尤其在捕捉极值组合收益方面优势明显;
  • 平滑算法在多头信息比和组合稳定性上展现独特优势,适合关注多头稳健表现的投资者,且NP因子在各算法下均展现强劲的单因子超额收益和高胜率,适合作为核心投资因子;

- 成长因子G的未来预测敏感性较高,因子表现受限,投资者需谨慎使用;
  • 图1-6丰富展示了三个算法下因子收益分组、因子溢价及多空/多头收益的时间序列表现,强化了结论的实证基础;

- 报告整体充分利用一致预期数据的优势,提示潜在流动性、模型及因子失效风险,为积极利用分析师预期进行系统选股提供了方法论和实证支持。

综上,该报告为市场参与者提供了清晰的预期因子构建方法指引,建议投资者优先采用锁定财务年度构建一致预期因子策略,同时关注因子稳定性和多头效应的平衡,结合自身需求选择合适处理方案。[page::全篇]

---

参考资料来源


  • 海通证券研究所《选股因子系列研究(四十)——预期因子的底层数据处理》完整文档[page::0-14]


---

此分析旨在为专业投资策略研发和因子研究提供深入理解,突出方法学与数据实证的结合,帮助提升基于一致预期数据的投资决策有效性和稳健性。

报告