`

多因子模型研究之一:单因子测试

创建于 更新于

摘要

本报告聚焦多因子模型构建的第一步——单因子测试,提取估值、盈利、成长、动量、波动率、流动性六大类107个因子。通过对因子数据的预处理、加权回归及多重共线性分析,结合分层回测方法检验因子选股能力,筛选出适用于不同市值股票池的十优因子,为后续多因子模型建立奠定基础。[page::0][page::4][page::10][page::29]

速读内容

  • 多因子模型介绍及流程[page::0][page::4]:

- 多因子模型旨在通过多个因子预测股票未来收益与风险。模型建立包括单因子测试、收益模型与风险模型三个步骤。
- 单因子测试通过统计显著性检验+分层回测,筛选有效因子。
  • 数据采集与预处理[page::5][page::8][page::9]:

- 样本为2006年1月至2017年6月全A股(剔除ST/PT及上市不足两年股票)。
- 因子采集包括估值、盈利、成长、动量、波动率、流动性6大类107个因子。
- 数据处理流程:去极值(中位数±5倍MAD)、ZScore标准化、缺失值移除。
  • 因子显著性测试回归模型[page::9]:

- 采用加权最小二乘回归(权重为流通市值平方根),同时控制行业和市值影响。
- 输出t值序列、因子收益序列及IC值序列,建立多维度显著性指标体系。
  • 单因子分层回测方法[page::10][page::11]:

- 股票按因子值分为5组,次期换仓买入分组股票,计算分组间超额年化收益率、波动率、夏普比率等指标。
- 股票池按市值分为大、中、小三类,评估因子在不同市值股票上的表现差异。
  • 估值因子测试[page::12][page::13][page::14][page::15]:

- 测试市盈率、市净率等多种估值相关因子,结果表明除个别因子外,估值因子在大市值股票上区分度较好。
- 推荐代表因子:EPFWD和bprel。
  • 盈利因子测试[page::15][page::16][page::17]:

- 选取利润率、ROE、ROA、ROIC等因子,盈利因子对大中市值股票有较好区分度,小市值股票表现较弱。
- 代表因子选qfa
roe。
  • 成长因子测试[page::18][page::19][page::20]:

- 采用5年、3年、1年及季度的营收和利润增长率等指标,季度、年度增长率表现优于长期指标。
- 推荐因子为qfayoyor和qfayoynp。
  • 动量因子测试[page::20][page::21][page::22][page::23]:

- 设计了多维度修正动量因子RSTR及传统收益率指标,动量因子在中小市值表现突出,长周期动量效应明显。
- 推荐因子为RSTRm6。
  • 波动率因子测试[page::23][page::24][page::25]:

- 测试beta、dastd、cmra、hsigma等波动率因子及成交量波动率,dastd和hsigma表现优异。
- VOL
1(成交量波动率)同样表现良好。
- Barra中的beta因子与cmra因子方向不稳定,回测效果不佳。
  • 流动性因子测试[page::26][page::27][page::28][page::29]:

- 换手率因子显著性强且表现稳定,市值因子方向不稳定但部分小盘股表现明显。
- 代表因子选用STOM(换手率)、nonlinearsize(市值指标)
  • 多重共线性检测及因子筛选[page::14][page::17][page::20][page::23][page::26][page::29]:

- 市盈率类、成长类、动量类、波动率及流动性因子均存在相关性,建议选用部分代表因子避免多重共线影响。
  • 单因子测试结论[page::29]:

- 筛选出10个表现优异的因子,为下一步多因子收益模型建立奠定基础。

深度阅读

多因子模型研究之一:单因子测试 — 深度分析报告



---

1. 元数据与概览


  • 报告标题: 多因子模型研究之一:单因子测试

- 分析师: 宋肠
  • 助理分析师: 李莘泰

- 机构: 渤海证券股份有限公司研究所
  • 日期: 2017年10月11日

- 研究主题: 多因子模型建设,特别聚焦在单因子测试的理论与实证验证上。通过对A股市场多个因子的统计检验和回测,筛选优质单因子,为多因子收益模型构建提供基础。
  • 核心观点摘要: 本报告作为多因子模型研究系列报告的第一篇,主要完成多因子模型建立的第一步:单因子测试。报告共涵盖估值、盈利、成长、动量、波动率和流动性六大类107个因子的回归检验及分层回测。结合统计显著性与实证选股效果,最终筛选10个表现优异的因子,为后续多因子模型构建奠定基础。同时发现不同因子对不同市值股票的适用性存在显著差异[page::0,3,4,11]。


---

2. 逐节深度解读



2.1 概述



2.1.1 历史背景(第3页)



投资收益优化和风险控制是金融投资理论的核心主题,均值-方差模型奠基现代资产组合理论,后续CAPM与APT模型深化风险与收益定价关系。经典单因子模型无法全面解释股票回报差异,Fama-French三因子模型纳入市值和账面价值市值比改进解释力度。随着研究深入,动量、波动率、流动性等更多因素被证实有显著影响,引出了多因子模型(MFM)的广泛应用[page::3]。

2.1.2 理论介绍(第3-4页)



多因子模型分为收益模型和风险模型:
  • 收益模型形式:

$$\tilde{r}{i} = \sumj X{i,j} \cdot \tilde{f}j + \tilde{u}i$$
其中$\tilde{r}
i$是股票i的预期收益率,$X{i,j}$为股票i对因子j的暴露度,$\tilde{f}j$为因子j收益率(估计值),$\tilde{u}i$为残差收益率。
  • 风险模型通过估计因子协方差矩阵,刻画组合波动风险,并在此基础上对权重进行优化,maximizing $w'\mu$(预期收益),同时控制总风险 $\mathbf{w}'\Lambda \mathbf{w} \leq \sigma^2$ ,并结合多种约束提高实用性[page::3,4]。


2.1.3 基本步骤(第4页)



多因子模型构建包含:
  1. 单因子测试(本报告重点)

2. 估计收益模型(因子收益率)
  1. 风险模型估计及二次规划权重优化

本报告完成步骤1,重点检验单因子表现并筛选有效因子[page::4]。

---

2.2 单因子测试流程(第5-11页)



2.2.1 数据采集


  • 样本范围:剔除ST/PT和上市不满两年股票的全A股

- 时间跨度:2006年1月至2017年6月,按月更新
  • 因子范围:107个因子,涵盖估值、盈利、成长、动量、波动率、流动性六大类,部分参考Barra CNE5模型因子,具体定义详见表1(未展示)[page::5,6]。


2.2.2 因子数据预处理


  • 数据对齐:调整财报数据滞后,确保因子反映的是投资决策时能获得的信息,避免未来函数。

- 去极值:采用“中位数去极值法”,用中位数±5倍MAD替换数据极端值,保障回归模型鲁棒性。
  • 标准化:Z-score处理因子值,消除量纲影响,符合标准正态分布假设。

- 缺失值处理:剔除缺失因子值股票,避免回测时偏差[page::8,9]。

2.2.3 回归模型建立及显著性测试



利用加权最小二乘(WLS)回归执行横截面回归,权重为流通市值平方根,缓解异方差影响。模型加入行业虚拟变量和市值控制项,形式为:

$$
r
i^{T+1} = \sumj Xj^T f{i,j}^T + x{size}^T f{size,i}^T + xd^T f{d,i}^T + ui^T
$$

其中,$ri^{T+1}$为股票i下一期收益率,$f{i,j}^T$为行业哑变量,$x{size}^T$为流通市值暴露,$xd^T$为因子暴露量,$ui^T$为残差[page::9]。

回归输出的主要指标:
  • t值绝对值均值,显著性强弱

- t值绝对值大于2的频率,显著性稳定性
  • 因子收益均值和标准差,衡量因子盈利能力和波动

- 因子收益t值和大于0概率,评估统计和方向一致性
  • 信息系数(IC)均值及其稳定性、信息比率(IR)衡量预测能力


重点是筛选出t值大、因子收益和IC稳定且方向性明显的因子,某些低方向稳定因子(如beta、市值)仍用于风险控制[page::9,10]。

2.2.4 单因子分层选股回测



以因子值为基准,将样本股票每月分为5组($N=5$),计算各组次月开始至下一个截面期持有期的实际收益等指标,考察因子区分股票未来表现的能力。
观察分组收益是否单调(例如从组1到组5收益递增或递减),区分度表现好。
考虑不同市值对因子敏感度,按大、中、小市值分三组分别回测[page::10,11]。

2.2.5 多重共线性检测



因子回归需防止高相关变量导致估计失真,初步通过计算相关矩阵识别高度相关因子。未来将运用VIF、逐步回归等方法进一步筛选、剔除或合并因子[page::11]。

---

2.3 测试结果(第12-29页)



报告分六大因子类详细展示回归显著性、多重共线性及分层回测结果,以下为重点内容解析:

2.3.1 估值因子(第12-15页)


  • 测试了Barra四个估值因子以及额外五个估值相关因子(如扣非市盈率倒数、相对市盈率、PEG);

- 多数因子显著(平均t值>2),市净率类因子(bp
If, bprel)尤其显著,CETOP和peg表现较差;
  • 分组回测显示估值因子在大市值股票上区分度最佳,组间收益差明显且收益顺序单调,中小市值表现较弱;

- 推荐用EPFWD和bp
rel作为估值因子代表,因这两者相关性稍高但又代表不同估值维度;
  • 相关矩阵显示市盈率类、净率类内部相关度较高,适合用两代表因子覆盖[page::12-15,13图,14图]。


2.3.2 盈利因子(第15-17页)


  • 选取五个表现最佳的盈利因子:扣非利润率(profitmargin)、ROE、ROA、ROIC、营业收益率(sales2EV);

- 大部分盈利因子t值均超过2,季度数据优于滚动12个月数据;
  • 分组回测表明盈利因子对大中市值股票有效,尤以qfaroe表现最好;

- 盈利因子间相关性高,如ROE、ROA与ROIC、profitmargin
q相关度较大,建议选择qfaroe作为代表[page::15-17,16图,17图]。

2.3.3 成长因子(第17-20页)


  • 选择因子包括五年与三年复合增长率、未来三年/一年预期净利润增长率、季度与年度营收及归母净利润增长率等;

- 成长因子显著性普遍较估值和盈利因子低,受中国股市特性影响较大;
  • 季度与年度增长率因子表现优于长周期因子;

- qfa
yoyor(营业收入季度同比增速)和qfayoynp(净利润季度同比增速)表现相对最佳,相关性适中;
  • 建议采用这两因子代表成长类[page::18-20,19图]。


2.3.4 动量因子(第20-23页)


  • 依Barra模型构建的RSTR因子(21-500日加权收益排除近期1月)及传统1、3、6个月收益率和CAPM alpha值;

- 所有动量因子显著性高,修正后的RSTR通常优于未修正版本;
  • 分组回测显示动量因子在中小市值更有效,大市值表现较弱;

- 半衰期效应在6个月以上显现明显,常用RSTR
m6表现最佳且与其他动量因子相关性高,建议用RSTRm6代表[page::20-23,21图]。

2.3.5 波动率因子(第23-26页)


  • 采用Barra定义的beta、dastd(日收益波动率)、cmra(收益下行风险)、hsigma(收益波动率)及成交量波动率因子;

- 除成交量波动率随时间跨度增大显著性下降,波动率因子整体表现良好,DASTD显著性最高;
  • 分层回测中,VOL因子在各市值段均表现优秀且时长影响显著,dastd和hsigma维持良好区分度;

- Barra的beta和cmra因子尽管显著,但收益方向不稳定(指标$10>0$概率≈0.5),回测表现不理想;
  • 最终推荐dastd和VOL1作为收益波动率和成交量波动率的代表因子[page::23-26,24图,25表,26图]。


2.3.6 流动性因子(第26-29页)


  • 测试Barra换手率因子STOM、STOQ、STOA及其不同时间尺度的相对换手率(MSM等)和市值变量(流通市值及nonlinearsize);

- 换手率因子显著性优于相对换手率,且均逐步减弱随时间拉长,市值因子显著但方向性不确定($10>0$≈0.5);
  • 分组回测显示流动性因子对中小市值股区分度均较大,换手率优于相对换手率;

- 相关性强,最终选用STOM代表换手率因子,nonlinearsize代表市值因子[page::26-29,27图,28表,29图]。

---

2.4 选出优异因子总结(第29页)



经过显著性测试、回测表现及多重共线性的综合考量,报告总结选出10个优异单因子,为后续多因子收益模型建立提供基础数据与理论支持。下一篇将展开多因子收益预测模型的构建[page::29]。

---

3. 重要图表深度解析



图1(第13页)—— 估值因子分市值超额年化收益率分组回测结果



该图由三组柱状图组成,分别对应大市值、中市值、小市值股票。横轴为不同估值因子,纵轴为各因子5组分组股票的超额年化收益率。
  • 大市值部分: 除CETOP外,所有估值因子组间收益呈明显单调递减或递增,表现最佳因子排序差异最大,表明估值因子在大市值股票具备优异选股能力。

- 中市值部分: 单调性及组间收益差异依然存在,但弱于大市值。
  • 小市值部分: 多数估值因子区分度低,收益差异小,表明估值因子在小市值股票效果有限,验证了因子对不同市值股票表现差异显著。


这数据直接支持理论推断,估值类因子的应用更适合于大中市值股票筛选[page::13]。

图7(第21页)—— 动量因子分市值超额年化收益率分组回测结果



同样呈现大、中、小市值三组柱状图,横轴为动量因子,纵轴为分组间超额收益率。
  • 小中市值部分分组收益呈较明显的递增趋势,且整体收益比大市值更高,动量因子在这两者中区分能力优异。

- 大市值分组表现较弱,且分组收益间距离小,显示其选股敏感性较低。

这体现出中小市值股票的收益更受动量驱动,动量因子成效更佳,验证报告观点[page::21]。

表14(第29页)—— 单因子测试结果汇总



该表综合了各因子在回归显著性、IC值及分层回测收益和风险指标的表现,辅以多重共线性考察,最终筛选出表现最佳的各因子。它是整个单因子测试工作的总结和功臣,展示了哪些因子在选股中“站得住脚”,为构建稳健多因子模型奠定坚实基础。

---

4. 估值分析



本报告中尚未开展多因子估值模型构建,仅完成单因子因子检验与回测。估值方法将在今后报告中基于本阶段筛选结果执行。

报告中的单因子收益模型采用回归加权最小二乘法估计因子收益率,结合分层回测评估因子单独的选股能力。该模式是多因子模型方法论中的必要准备步骤,保障后续多因子模型的因子组合有效性[page::3,4,9,10,29]。

---

5. 风险因素评估



报告未单列风险章节,但暗含风险讨论:
  • 数据质量风险:因子数据的对齐、去极值与缺失值处理均强化稳健性,但证券市场数据固有波动仍存。

- 多重共线性风险:高相关因子会致使回归参数失真,报告会增加筛选与后续逐步回归等处理。
  • 模型风险:回归基于历史数据,且因子有效性在不同市值股票间表现迥异,模型稳定性及未来有效性存不确定。

- 未来事件风险:财报时间延迟调整、停牌、股票复牌时涨跌停限制解除等对回测结果产生扰动。

报告提出通过多重共线性控制与数据预处理等方式减缓风险,但未提供硬性量化风险概率或缓解策略[page::8,9,11,14,29]。

---

6. 审慎视角与细微差别


  • 报告在筛选因子时依赖统计显著性与实证分层回测表现,但未深入探究因子在不同市场环境中的表现及结构性变换影响。

- 动量因子短周期和长周期表现差异揭示市场特性和流动性影响,未来多因子模型中需更多考虑因子动态权重调整。
  • 多重共线性处理目前较初步,建议未来增加VIF检测和因子聚类减少信息冗余。

- 报告认可部分因子(如市值beta)尽管方向不稳定但因风险控制重要而保留,提醒模型构建需平衡收益和风险维度。
  • 小市值股票因子有效性整体远低于大市值,折射A股市场结构性差异,未来模型多层次设计尤为关键。

- 报告中的因子定义以及数据处理方式均依赖于Wind和Barra等数据标准,说明研究具有较高行业权威性与严谨性。

---

7. 结论性综合



本报告全面系统完成了对A股市场107个单因子的回归显著性测试和分层回测评估,涵盖估值、盈利、成长、动量、波动率及流动性六大类因子。设计严谨的数据预处理确保模型不会被极端值及数据缺失干扰,采用WLS回归方法和信息系数指标综合验证因子预测能力。通过细致回测发现:
  • 估值和盈利因子主要适用于大中市值股票,特别是市净率倒数(bpIf、bprel)、EPFWD、ROE相关因子,表现出了较为稳定和显著的收益区分能力。

- 动量、波动率及流动性因子更适合中小市值股票,其中修正动量因子RSTRm6表现尤为突出,波动率指标dastd及成交量VOL1和换手率STOM也有效区分了不同盈利能力的股票。
  • 成长类因子显著性相对偏弱,但季度同比增长率因子对不同市值股票仍具备一定选股能力。

- 多重共线性存在于同类因子内部,报告建议在后续多因子模型构建时选用代表因子以减少冗余。
  • 综上,报告筛选出10个绩优单因子,准备进行下一步多因子收益模型构建和风险模型估计。


该报告为传统量化选股中关键一步,确保后续多因子研究更具科学性和实用性,有助于提升量化投资组合的收益与风险管理水平[page::0-29]。

---

附:主要图片示例



图1:估值因子超额年化收益率分组回测结果


图7:动量因子超额年化收益率分组回测结果


表14:单因子测试结果汇总
(表格内容未详细展示,但为报告核心内容,合成了所有因子评测指标)

---

总结



本报告客观严谨、系统详尽地完成了A股多因子模型构建中单因子测试的关键环节,结合理论与数据实证挖掘出一批具备显著性和选股能力的单因子,明确了不同因子与不同市值股票的关系,为多因子模型的搭建与优化提供了坚实基础。其方法科学、数据充分,结论对量化投资和多因子研究均有重要参考价值。

报告