`

基于财务与风格因子的机器学习选股

创建于 更新于

摘要

本文通过引入财务因子,扩充机器学习模型的输入维度,显著提升了选股能力。采用神经网络、随机森林和提升树综合构建机器学习残差因子和反转因子,基于这两因子构建的复合因子展现出更稳定的超额收益和较高的信息系数。实证结果显示复合因子在全市场、中证500及中证1000股票池均有效,在沪深300成分股中失效。复合因子组合自2015年至2021年每年均实现正的超额收益,年化超额收益约14%,信息比率达2.35,且策略容量可达百亿量级,收益主要来自于捕获风格与财务因子的非线性特质选股能力[page::0][page::11][page::17]

速读内容

  • 机器学习选股方法创新点与因子构成 [page::0][page::3]

- 先用风格因子线性回归剔除风格收益,拟合特质收益率;再用机器学习模型拟合特质收益率;
- 财务因子选取季度营业成本同比、总成本同比、研发投入同比、营业利润同比增速及ROE,补齐并做中位数去极值处理;
- 利用神经网络、随机森林、提升树三种模型集成,降低单一模型噪音影响,滚动训练评价模型质量。
  • 机器学习残差因子与反转因子构建及表现 [page::4][page::5][page::10]

- 残差因子为机器学习模型对特质收益率的预测,反转因子取拟合残差的相反数并做风格中性处理;
- 反转因子多头收益接近残差因子,多头收益更稳健,空头收益更强;
- 信息系数(Rank IC)显示,两个因子均在全市场和中证1000成分股达到稳定正收益信号,反转因子在中证1000内稳定性更好。
  • 复合因子构造及优越性 [page::6][page::11]

- 将残差因子与反转因子z-score标准化后等权相加得到复合因子;
- 复合因子结合二者优势,提升了超额收益稳定性,多空组合收益优于单因子;
- 相较于单因子,复合因子信息比率提升,2015年至2021年每年均实现正超额收益,年化超额收益约14%,信息比率2.35,且换手率较低,年度约8.14%;
  • 组合表现细节与容量测试 [page::12][page::15][page::16]

- 复合因子表现出良好的单调性和多空差异化,细分15组发现空头收益提升明显,多头收益无显著变化;
- 在全市场及中证500、1000内表现稳健,沪深300成分股表现失效;
- 组合容量测试显示,资金规模从10亿升至500亿,年化收益率从16.1%降至11.1%,15日调仓完成度高,估算容量约百亿;

  • 组合收益归因总结 [page::16][page::17]

- 超额收益主要源自特质选股能力(机器学习捕获的非线性效应),同时财务因子的正确暴露也贡献显著;
- 组合部分风格偏小盘,行业因子贡献较小,表明收益主要来自因子非线性捕获与特质选股;
  • 策略风险提示 [page::18]

- 市场风格变化风险、模型失效风险、数据可用性风险。

深度阅读

一、元数据与报告概览



报告标题: 《基于财务与风格因子的机器学习选股》
作者: 肖承志(证券分析师,资格编号S0120521080003)、王成煜(研究助理)
发布机构: 德邦证券研究所
发布日期: 报告页码标注时间为2021-2022年区间的回测成年限,故报告发布时间应在2022年左右
主题: 采用机器学习方法结合风格因子与财务因子,构建风格中性且有效的选股因子,研究其在中国A股市场尤其是中证1000指数成分股的选股能力和投资效果。

核心论点及评级意见:
报告基于传统风格因子的机器学习残差因子扩展,通过加入财务因子提升模型的选股能力,特别是在中证1000指数成分股内显著增强选股有效性和超额收益。引入机器学习残差因子和机器学习反转因子等权构造复合因子,可以进一步提高超额收益的稳定性和选股分辨度。策略表现稳健,回测年化超额收益约14%,换手率适中,策略容量达到百亿量级。风险警示包括市场风格变化、模型失效及数据可用性风险。总体为量化选股策略的强推荐。

---

二、逐节深度解读



1. 前言


报告继承德邦证券此前关于机器学习因子主题研究,指出先前仅使用风格因子输入造成的信息量有限,且在中证800股票池效果欠佳。本文聚焦中证1000指数,扩展因子输入数据,加入精选财务因子,旨在提升机器学习模型对特质收益率的拟合和选股能力。[page::3]

2. 方法



2.1 特质收益率

  • 采用多因子模型框架,传统方法多以线性组合因子构建选股信号,难以捕捉非线性效应和因子交互。

- 本文使用机器学习模型建立风格中性的选股因子。
  • 线性回归中,股票收益率用风格因子的线性组合拟合,残差即特质收益率 $\varepsilonT$。

- 特质收益率是机学习模型拟合的目标变量,目的是捕获独立于市场风格的选股信号。[page::3]

2.2 财务因子

  • 选取资产负债表和利润表数据,重点考虑因子本身值及同比增速。

- 选因子包括季度ROE、季度营业成本同比增速、总成本同比增速、研发投入同比增速、营业利润同比增速。
  • 对于变化率计算,采用绝对值作分母处理以避免负值带来的方向扭曲。

- 极端值处理中使用基于中位数的去极值方法(参数n取3),减少异常值对模型效果影响。
  • 选取财务因子反映成长性和财务质量,为机器学习模型带来新的信息维度,改善预测性能。[page::3-4]


2.3 机器学习残差因子

  • 用机器学习函数 $G(B{T-\Delta T}, X{T-\Delta T})$ 拟合特质收益率 $\varepsilonT$,残差即机器学习残差因子 $\varepsilonT'$。

- 采用神经网络(两种结构)、随机森林(三个不同树数)、提升树(三种深度)三种模型。
  • 各个子模型取算术平均,三类模型输出Z-score标准化后再平均得到总集成模型输出。

- 利用过去5年数据滚动训练,通过多模型集成减小噪音,提高泛化能力。
  • 对最新一期因子输入计算机器学习因子 $GT$,然后对风格因子做正交化,得到风格中性的机器学习残差因子 $\tilde{G}T$,最终用作选股因子。[page::4-5]


2.4 机器学习反转因子

  • 机器学习模型拟合的残差 $\varepsilonT'$ 包含模型未解释的部分及可能的错误定价,后者有反转倾向。

- 反转因子为残差项的相反数,且对风格因子正交化后得到风格中性因子 $\epsilonT$。
  • 该因子理论依据来自学术文献中残差收益具有独立风格的择时能力,且机器学习残差理论比传统线性残差更接近错误定价。

- 计划对该反转因子做单因子回测,并与残差因子等权结合。[page::5-6]

2.5 复合因子构造

  • 对机器学习残差因子和机器学习反转因子做横截面Z-score标准化后等权相加得到复合因子 $MT$。

- 四步骤计算示意详见图1:先训练机器学习模型,再计算反转因子,随后计算残差因子,合成复合因子。
  • 复合因子结合两个因子优势,旨在提升因子稳定性和选股能力。[page::6]


2.6 投资组合构造

  • 调仓规则为每月第一个非节假日的周一;调仓时排除停牌、ST、涨停及上市未满20日的股票。

- 股票按因子值分组后构建市值等权组合;如选中证1000成分股,则为分组与指数成分交集。
  • 投组合以因子视角为主,不进行权重优化或投资组合层面选择调整。[page::6-7]


2.7 风格、财务、行业归因方法

  • 多元回归分解组合超额收益,变量包括风格因子矩阵 $B{T-\Delta T}$、财务因子 $X{T-\Delta T}$ 和行业因子 $I_{T-\Delta T}$。

- 通过限制行业因子线性相关约束克服共线性问题。
  • 归因用于识别超额收益来源于风格、财务、行业暴露或特质选股效应。[page::7]


3. 结果



3.1 基于风格因子的机器学习残差因子回测

  • 图 2 显示五组超额收益柱状图及净值曲线,自2015年至2022年,分组间超额收益存在单调区分性,但高收益组(组5)和低收益组(组1)间差异自2021年起显著回撤,尤其2015-2018年超额收益不显著,表明模型效果不稳定。

- 因组合等权,整体偏小市值,市场中小市值效应导致五组平均均正。
  • 图3、4信息系数(RankIC)月度序列显示全市场信息系数整体上升,累计信息系数稳定,但中证1000内2018年前后信息系数拐点,2021年后回撤显著,反映中证1000内模型效果弱势。

- RankIC IR(信息比率)分别为全市场0.623,中证1000内0.268,表明该模型选股能力在小盘股市场更突出。[page::7-9]

3.2 引入财务因子的机器学习残差因子

  • 图5显示明显的分组超额收益区分,组5超额明显优于基于仅风格因子的结果。2021年后超额收益波动变大,但回撤量较小。

- 图6、7信息系数及累计曲线表明全市场及中证1000信息系数均显著改善:平均RankIC分别为全市0.055、中证1000 0.057,IR也有较大幅提升,表明财务因子显著提升因子有效性。[page::9-10]

3.3 机器学习反转因子

  • 图8分组回测显示多头和空头收益均较高,尤以空头收益显著优于残差因子,且多空策略稳健。

- 组2与组3区分度较弱,说明因子对中间收益股票的判别能力下降。
  • 图9、10信息系数良好,2015-2021全市场RankIC为0.068,IR达1.175,中证1000为0.073,IR0.869,反转因子在中证1000内表现略优于残差因子。[page::10]


3.4 复合因子



3.4.1 中证1000选股

  • 图11显示复合因子各分组超额收益明显,尤其多空差距显著扩大,较单独反转因子提升了收益稳定性。

- 图12、13信息系数较高,平均RankIC为全市场0.066,中证1000为0.07,IR分别为1.132和0.8,优于残差和反转单因子。
  • 表2显示2015-2021年每年超额收益均为正,累计年化超额收益约14%,信息比率2.35,显示策略长期有效且波动性和最大回撤均优于基准。

- 图14换手率不高,月调仓日双边换手率约0.678,对应年换手率约8.14%,说明交易成本控制合理。[page::11-12]

3.4.2 高集中度组合

  • 图15中将股票分15组考察集中度影响,高集中度空头组表现显著优于低组,空头收益大幅增强;多头组收益变化微弱。

- 结论为提高股票集中度主要增加空头收益,对多头表现提升有限,表明多头收益受因子信号强度限制,非通过加大集中度获得提升。[page::13]

3.4.3 全市场、中证500、沪深300选股

  • 图16-18回测显示,复合因子在全市场及中证500内均表现显著优异,特别中证500超额收益突出,表明因子具备普适性。

- 沪深300内多头收益不佳,因子失效,符合流动性与信息效率假说。
  • 建议通过对冲中证500指数期货减少β暴露,实现低波动、稳健α收益。[page::13-15]


3.4.4 组合容量测试

  • 图19显示,资金量从10亿元扩展至500亿元,年化收益率由16.1%降至11.1%,策略容量在百亿级别。

- 换仓日涨停股票处理方案确保涨停股票后期能参与组合,有助容量测试真实性。
  • 调仓完成度定义及图20回测显示资金规模100亿元左右时完成度仍接近90%,确认容量约100亿元。[page::15-16]


3.4.5 组合收益归因

  • 图21归因显示,组合超额收益主要源于特质选股(残差因子捕获的非线性收益)。

- 财务因子暴露也为组合贡献稳健超额收益。
  • 风格因子贡献次之,行业因子贡献微弱。

- 说明模型有效挖掘了非线性信息和财务因子信息,而非简单风格或行业暴露带来超额。[page::16-17]

4. 结论

  • 利用风格因子与财务因子共同构建机器学习残差因子能够显著提升选股效力。

- 财务因子增效作用明确,尤其提升了模型在中证1000股票池的筛选能力。
  • 机器学习反转因子提供了强劲空头信号,复合因子集合两者优势提高信号稳定性。

- 复合因子策略年化超额收益稳定,换手率适中,容量达到百亿规模。
  • 在沪深300成分股存在因子失效现象,提示流动性与信息效率对量化选股能力影响。

- 未来通过系统化挑选更多财务因子,结合机器学习,选股能力有望进一步提高。[page::17]

5. 风险提示

  • 市场风格变化可能导致因子失效。

- 机器学习模型存在过拟合或样本外失效风险。
  • 数据质量与可用性限制可能影响模型表现。[page::18]


---

三、图表深度解读



图1:因子计算方法示意图

  • 展示因子训练和计算流程

- 黑框中为训练数据包括历史因子值与历史收益率
  • 红框为计算机器学习反转因子

- 绿框为计算机器学习残差因子
  • 两因子结合成为复合因子,图示清晰展示了机器学习因子构造的端到端流程。[page::6]



图2:基于风格因子(十因子)机器学习残差因子的分组回测

  • 上图显示五组超额收益,组5最好,组1最差,存在分组收益单调性,但差距有限且2021年出现大幅回撤。

- 下图净值曲线显示5组净值走势趋同,组5相较组1呈轻微优势,多空收益波动大。
  • 结论为十因子模型信息量不足,表现不稳。[page::7]



图3、图4:十因子机器学习残差因子信息系数(全市场与中证1000)

  • 条形图间歇震荡,累积曲线总体呈上升态势,表明因子具有长期有效的预测能力,尤其在全市场更稳定。

- 中证1000累积曲线平缓,2021年后下滑,表明模型在该股票池有效性不足。[page::7-8]



图5:基于风格和财务因子(十五因子)的机器学习残差因子分组回测

  • 五组收益区分度明显,组5超额收益显著,2021年波动但无明显长期回撤。

- 收益曲线稳健,说明财务因子增强了信号质量。
  • 相比图2,策略更有效。[page::9]



图6、图7:十五因子机器学习残差因子信息系数(全市场与中证1000)

  • 累积RankIC连年上升至2021,说明因子预测能力显著提升。

- 中证1000信息系数表现明显优于十因子版本且较稳定。[page::9-10]



图8:机器学习反转因子分组回测

  • 多头收益组数规律递增,空头收益率高,整体多空曲线走高且稳健。

- 中间组波动大,分辨能力有限。
  • 该因子尤其擅长捕获错价反转机会。[page::10]



图9、图10:机器学习反转因子信息系数(全市场与中证1000)

  • 全市场RankIC为0.068,IR1.175,反转因子捕获非线性反转信号的能力强,表现优于残差因子。

- 中证1000中RankIC同样较高,且累计曲线呈稳健上扬,与策略回测表现相符。[page::10]



图11:复合因子分组回测

  • 多空收益明显扩张,多头收益有所提升,特别是对收益中等的个股区分能力增强,复合因子集成效果优于单因子。

- 多空净值长期稳定上涨,表明策略稳健性增强。[page::11]


图12、13:复合因子信息系数(全市场、中证1000)

  • 复合因子信息系数最高,累积值尤其显著,代表因子长期选股信号可靠且强劲。

- 表明因子融合提升模型选股质量和稳定性。[page::11]



表2:复合因子多头组超额收益年度表现及统计指标

  • 2015-2021年每年超额收益均为正,最高超额收益达到69%。

- 信息比率高达2.35,风险调整收益优良。
  • 最大回撤最大为55%,低于基准72%。

- 换手率适中,回撤指标合理,策略风险可控。[page::11]

图14:换手率

  • 月度调仓日双边换手率均值0.678,年化约8%,说明调仓节奏及交易频率控制较好,交易成本低。

- 换手率稳定,有利于控制策略实施成本。[page::12]


图15:高集中度组合回测

  • 股票分15组后,发现集中度调节主要增强空头收益,多头收益增长有限。

- 多空策略净值表现改善,说明空头端信号或策略执行更有效。
  • 对多头收益提升作用有限,暗示策略多头信号受限。[page::13]



图16-18:复合因子在不同股票池中的表现

  • 全市场及中证500因子回测分组净值优异,因子稳健有效。

- 沪深300池内策略不佳,多头收益为负,多空净值无明显优势,因子存在失效。
  • 显示流动性和信息效率在不同股票池影响选股模型表现的关键作用。[page::13-15]





图19:容量测试回测结果

  • 资金量扩增时收益下降,起始资金10亿年化收益16%以上,500亿时仍有11%以上收益。

- 容量达百亿量级,表明策略具备一定规模操作空间。
  • 减少规模时表现提升明显,提示资金规模对策略绩效有显著影响。[page::15]



图20:调仓完成度

  • 不同规模资金调仓后15日完成度显示,资金100亿以内,完成度均稳定在90%以上。

- 超过200亿,完成度下降,提示成交量限制扩张资金的调仓效率。
  • 完成度接近90%较好,支撑百亿容量预估。[page::16]



图21:组合收益归因

  • 组合超额净值蓝线稳步上升,特质回报(残差因子模型捕获的非线性信息)贡献最大。

- 财务因子贡献稳定,风格因子贡献次之,行业因子贡献很小。
  • 结果表明策略主要依靠机器学习模型挖掘的非线性特质选股信号及财务信息获得超额收益。[page::16]



---

四、估值分析



报告核心为机器学习选股因子构建与回测,不涉及直接的估值模型或目标价格的分析。研究重点聚焦因子构造、机器学习模型预测能力验证、组合收益表现及风险评估,故无传统估值部分。

---

五、风险因素评估


  • 市场风格变化风险:因市场环境和风格变化,风格因子模型可能失效,影响机器学习残差因子稳定性。

- 模型失效风险:机器学习模型存在过拟合风险,样本外表现可能弱于训练表现。
  • 数据可用性风险:财务因子数据延迟、披露瑕疵或缺失风险均可能影响模型输入质量。

- 报告未详细展开风险缓解措施,但通过滚动训练、集成模型、多模型平均和风格正交等方法部分缓解。
  • 资金容量测试也体现流动性风险和资金规模对策略表现的影响。[page::18]


---

六、批判性视角与细微差别


  • 报告清晰揭示机器学习选股模型在不同股票池内表现差异,特别指出沪深300内因子失效,与市场流动性、信息效率假说相符,体现态度审慎。

- 财务因子选择较少,未进行系统化因子筛选,可能存在因子遗漏,后续实际操作中需强化因子筛选流程。
  • 换手率虽不高,但320%的模型最大回撤仍较大,后续需关注回撤管控。

- 尽管报告多次强调风格正交及特质收益捕捉,仍未完全消除风格、行业偏差的可能,需要持续监控。
  • 机器学习模型复杂度被控制在较低水平,说明信息量受限,未来提升数据丰富度或模型能力是方向。


---

七、结论性综合



本文基于德邦证券研究所前期机器学习选股因子研究,创新性地引入精选财务因子,在现有风格因子基础上构建十五因子机器学习模型,结合神经网络、随机森林及提升树三类模型集成,拟合股票特质收益率。模型产生两个核心因子——机器学习残差因子与机器学习反转因子,分别捕捉非线性收益及反转信息,二者经Z-score标准化等权合成复合因子,从而获得更稳定、强劲的超额收益信号。

回测结果表明,单纯风格因子的机器学习残差因子在中证1000及沪深300表现较弱,加入财务因子后,残差因子信息系数明显提升,特别是在中证1000中表现优异。机器学习反转因子展现出更强的空头能力和稳健的多空收益,复合因子进一步提升了整体选股稳定性和收益率。作图分析显示,复合因子在不同市场范围内具备显著选股能力——尤其在全市场、中证1000及中证500中表现良好,而在沪深300中失效。

量化组合的年化超额收益约14%,信息比率2.35,最大回撤54%,换手率8.14%且容量达到百亿级别。细化分组并提高投资集中度效果主要体现在空头端,多头端收益提升有限。收益归因验证了超额收益主要源于非线性机器学习模型捕获的特质收益和合理财务因子暴露,而非风格或行业暴露。

整体看,财务因子为基于风格因子的机器学习选股模型带来了显著信息增益,增强模型泛化能力与实用性,尤其突显了结合非线性机器学习模型探索财务因子复杂交互对选股的重要价值。未来系统化财务因子筛选和多样化机器学习模型训练将进一步提升量化选股的超额收益能力与稳健性。

总评: 报告全面严谨地展示了基于风格与财务因子的机器学习机器选股框架及其实证效果,提出了一套在中国A股中证1000范围内均表现优异的复合型量化选股方法,具备较强的实际应用价值,建议积极关注与实践,持续跟踪模型适应性与风险控制。

---

参考文献


[文中引用] Frankel等(残差收益率模型), Batram等(错误定价因子),德邦金工机器学习系列报告。

---

(全文引用标注均详见原报告页码,示例:[page::3],[page::10] 等)

报告