多因子模型研究之一:单因子测试
创建于 更新于
摘要
本报告聚焦多因子模型构建的第一步——单因子测试,提取估值、盈利、成长、动量、波动率、流动性六大类107个因子。通过对因子数据的预处理、加权回归及多重共线性分析,结合分层回测方法检验因子选股能力,筛选出适用于不同市值股票池的十优因子,为后续多因子模型建立奠定基础。[page::0][page::4][page::10][page::29]
速读内容
- 多因子模型介绍及流程[page::0][page::4]:
- 多因子模型旨在通过多个因子预测股票未来收益与风险。模型建立包括单因子测试、收益模型与风险模型三个步骤。
- 单因子测试通过统计显著性检验+分层回测,筛选有效因子。
- 数据采集与预处理[page::5][page::8][page::9]:
- 样本为2006年1月至2017年6月全A股(剔除ST/PT及上市不足两年股票)。
- 因子采集包括估值、盈利、成长、动量、波动率、流动性6大类107个因子。
- 数据处理流程:去极值(中位数±5倍MAD)、ZScore标准化、缺失值移除。
- 因子显著性测试回归模型[page::9]:
- 采用加权最小二乘回归(权重为流通市值平方根),同时控制行业和市值影响。
- 输出t值序列、因子收益序列及IC值序列,建立多维度显著性指标体系。
- 单因子分层回测方法[page::10][page::11]:
- 股票按因子值分为5组,次期换仓买入分组股票,计算分组间超额年化收益率、波动率、夏普比率等指标。
- 股票池按市值分为大、中、小三类,评估因子在不同市值股票上的表现差异。

- 估值因子测试[page::12][page::13][page::14][page::15]:
- 测试市盈率、市净率等多种估值相关因子,结果表明除个别因子外,估值因子在大市值股票上区分度较好。
- 推荐代表因子:EPFWD和bprel。
- 盈利因子测试[page::15][page::16][page::17]:
- 选取利润率、ROE、ROA、ROIC等因子,盈利因子对大中市值股票有较好区分度,小市值股票表现较弱。
- 代表因子选qfaroe。

- 成长因子测试[page::18][page::19][page::20]:
- 采用5年、3年、1年及季度的营收和利润增长率等指标,季度、年度增长率表现优于长期指标。
- 推荐因子为qfayoyor和qfayoynp。

- 动量因子测试[page::20][page::21][page::22][page::23]:
- 设计了多维度修正动量因子RSTR及传统收益率指标,动量因子在中小市值表现突出,长周期动量效应明显。
- 推荐因子为RSTRm6。

- 波动率因子测试[page::23][page::24][page::25]:
- 测试beta、dastd、cmra、hsigma等波动率因子及成交量波动率,dastd和hsigma表现优异。
- VOL1(成交量波动率)同样表现良好。
- Barra中的beta因子与cmra因子方向不稳定,回测效果不佳。

- 流动性因子测试[page::26][page::27][page::28][page::29]:
- 换手率因子显著性强且表现稳定,市值因子方向不稳定但部分小盘股表现明显。
- 代表因子选用STOM(换手率)、nonlinearsize(市值指标)

- 多重共线性检测及因子筛选[page::14][page::17][page::20][page::23][page::26][page::29]:
- 市盈率类、成长类、动量类、波动率及流动性因子均存在相关性,建议选用部分代表因子避免多重共线影响。
- 单因子测试结论[page::29]:
- 筛选出10个表现优异的因子,为下一步多因子收益模型建立奠定基础。
深度阅读
多因子模型研究之一:单因子测试 — 深度分析报告
---
1. 元数据与概览
- 报告标题: 多因子模型研究之一:单因子测试
- 分析师: 宋肠
- 助理分析师: 李莘泰
- 机构: 渤海证券股份有限公司研究所
- 日期: 2017年10月11日
- 研究主题: 多因子模型建设,特别聚焦在单因子测试的理论与实证验证上。通过对A股市场多个因子的统计检验和回测,筛选优质单因子,为多因子收益模型构建提供基础。
- 核心观点摘要: 本报告作为多因子模型研究系列报告的第一篇,主要完成多因子模型建立的第一步:单因子测试。报告共涵盖估值、盈利、成长、动量、波动率和流动性六大类107个因子的回归检验及分层回测。结合统计显著性与实证选股效果,最终筛选10个表现优异的因子,为后续多因子模型构建奠定基础。同时发现不同因子对不同市值股票的适用性存在显著差异[page::0,3,4,11]。
---
2. 逐节深度解读
2.1 概述
2.1.1 历史背景(第3页)
投资收益优化和风险控制是金融投资理论的核心主题,均值-方差模型奠基现代资产组合理论,后续CAPM与APT模型深化风险与收益定价关系。经典单因子模型无法全面解释股票回报差异,Fama-French三因子模型纳入市值和账面价值市值比改进解释力度。随着研究深入,动量、波动率、流动性等更多因素被证实有显著影响,引出了多因子模型(MFM)的广泛应用[page::3]。
2.1.2 理论介绍(第3-4页)
多因子模型分为收益模型和风险模型:
- 收益模型形式:
$$\tilde{r}{i} = \sumj X{i,j} \cdot \tilde{f}j + \tilde{u}i$$
其中$\tilde{r}i$是股票i的预期收益率,$X{i,j}$为股票i对因子j的暴露度,$\tilde{f}j$为因子j收益率(估计值),$\tilde{u}i$为残差收益率。
- 风险模型通过估计因子协方差矩阵,刻画组合波动风险,并在此基础上对权重进行优化,maximizing $w'\mu$(预期收益),同时控制总风险 $\mathbf{w}'\Lambda \mathbf{w} \leq \sigma^2$ ,并结合多种约束提高实用性[page::3,4]。
2.1.3 基本步骤(第4页)
多因子模型构建包含:
- 单因子测试(本报告重点)
2. 估计收益模型(因子收益率)
- 风险模型估计及二次规划权重优化
本报告完成步骤1,重点检验单因子表现并筛选有效因子[page::4]。
---
2.2 单因子测试流程(第5-11页)
2.2.1 数据采集
- 样本范围:剔除ST/PT和上市不满两年股票的全A股
- 时间跨度:2006年1月至2017年6月,按月更新
- 因子范围:107个因子,涵盖估值、盈利、成长、动量、波动率、流动性六大类,部分参考Barra CNE5模型因子,具体定义详见表1(未展示)[page::5,6]。
2.2.2 因子数据预处理
- 数据对齐:调整财报数据滞后,确保因子反映的是投资决策时能获得的信息,避免未来函数。
- 去极值:采用“中位数去极值法”,用中位数±5倍MAD替换数据极端值,保障回归模型鲁棒性。
- 标准化:Z-score处理因子值,消除量纲影响,符合标准正态分布假设。
- 缺失值处理:剔除缺失因子值股票,避免回测时偏差[page::8,9]。
2.2.3 回归模型建立及显著性测试
利用加权最小二乘(WLS)回归执行横截面回归,权重为流通市值平方根,缓解异方差影响。模型加入行业虚拟变量和市值控制项,形式为:
$$
ri^{T+1} = \sumj Xj^T f{i,j}^T + x{size}^T f{size,i}^T + xd^T f{d,i}^T + ui^T
$$
其中,$ri^{T+1}$为股票i下一期收益率,$f{i,j}^T$为行业哑变量,$x{size}^T$为流通市值暴露,$xd^T$为因子暴露量,$ui^T$为残差[page::9]。
回归输出的主要指标:
- t值绝对值均值,显著性强弱
- t值绝对值大于2的频率,显著性稳定性
- 因子收益均值和标准差,衡量因子盈利能力和波动
- 因子收益t值和大于0概率,评估统计和方向一致性
- 信息系数(IC)均值及其稳定性、信息比率(IR)衡量预测能力
重点是筛选出t值大、因子收益和IC稳定且方向性明显的因子,某些低方向稳定因子(如beta、市值)仍用于风险控制[page::9,10]。
2.2.4 单因子分层选股回测
以因子值为基准,将样本股票每月分为5组($N=5$),计算各组次月开始至下一个截面期持有期的实际收益等指标,考察因子区分股票未来表现的能力。
观察分组收益是否单调(例如从组1到组5收益递增或递减),区分度表现好。
考虑不同市值对因子敏感度,按大、中、小市值分三组分别回测[page::10,11]。
2.2.5 多重共线性检测
因子回归需防止高相关变量导致估计失真,初步通过计算相关矩阵识别高度相关因子。未来将运用VIF、逐步回归等方法进一步筛选、剔除或合并因子[page::11]。
---
2.3 测试结果(第12-29页)
报告分六大因子类详细展示回归显著性、多重共线性及分层回测结果,以下为重点内容解析:
2.3.1 估值因子(第12-15页)
- 测试了Barra四个估值因子以及额外五个估值相关因子(如扣非市盈率倒数、相对市盈率、PEG);
- 多数因子显著(平均t值>2),市净率类因子(bpIf, bprel)尤其显著,CETOP和peg表现较差;
- 分组回测显示估值因子在大市值股票上区分度最佳,组间收益差明显且收益顺序单调,中小市值表现较弱;
- 推荐用EPFWD和bprel作为估值因子代表,因这两者相关性稍高但又代表不同估值维度;
- 相关矩阵显示市盈率类、净率类内部相关度较高,适合用两代表因子覆盖[page::12-15,13图,14图]。
2.3.2 盈利因子(第15-17页)
- 选取五个表现最佳的盈利因子:扣非利润率(profitmargin)、ROE、ROA、ROIC、营业收益率(sales2EV);
- 大部分盈利因子t值均超过2,季度数据优于滚动12个月数据;
- 分组回测表明盈利因子对大中市值股票有效,尤以qfaroe表现最好;
- 盈利因子间相关性高,如ROE、ROA与ROIC、profitmarginq相关度较大,建议选择qfaroe作为代表[page::15-17,16图,17图]。
2.3.3 成长因子(第17-20页)
- 选择因子包括五年与三年复合增长率、未来三年/一年预期净利润增长率、季度与年度营收及归母净利润增长率等;
- 成长因子显著性普遍较估值和盈利因子低,受中国股市特性影响较大;
- 季度与年度增长率因子表现优于长周期因子;
- qfayoyor(营业收入季度同比增速)和qfayoynp(净利润季度同比增速)表现相对最佳,相关性适中;
- 建议采用这两因子代表成长类[page::18-20,19图]。
2.3.4 动量因子(第20-23页)
- 依Barra模型构建的RSTR因子(21-500日加权收益排除近期1月)及传统1、3、6个月收益率和CAPM alpha值;
- 所有动量因子显著性高,修正后的RSTR通常优于未修正版本;
- 分组回测显示动量因子在中小市值更有效,大市值表现较弱;
- 半衰期效应在6个月以上显现明显,常用RSTRm6表现最佳且与其他动量因子相关性高,建议用RSTRm6代表[page::20-23,21图]。
2.3.5 波动率因子(第23-26页)
- 采用Barra定义的beta、dastd(日收益波动率)、cmra(收益下行风险)、hsigma(收益波动率)及成交量波动率因子;
- 除成交量波动率随时间跨度增大显著性下降,波动率因子整体表现良好,DASTD显著性最高;
- 分层回测中,VOL因子在各市值段均表现优秀且时长影响显著,dastd和hsigma维持良好区分度;
- Barra的beta和cmra因子尽管显著,但收益方向不稳定(指标$10>0$概率≈0.5),回测表现不理想;
- 最终推荐dastd和VOL
2.3.6 流动性因子(第26-29页)
- 测试Barra换手率因子STOM、STOQ、STOA及其不同时间尺度的相对换手率(MSM等)和市值变量(流通市值及nonlinearsize);
- 换手率因子显著性优于相对换手率,且均逐步减弱随时间拉长,市值因子显著但方向性不确定($10>0$≈0.5);
- 分组回测显示流动性因子对中小市值股区分度均较大,换手率优于相对换手率;
- 相关性强,最终选用STOM代表换手率因子,nonlinearsize代表市值因子[page::26-29,27图,28表,29图]。
---
2.4 选出优异因子总结(第29页)
经过显著性测试、回测表现及多重共线性的综合考量,报告总结选出10个优异单因子,为后续多因子收益模型建立提供基础数据与理论支持。下一篇将展开多因子收益预测模型的构建[page::29]。
---
3. 重要图表深度解析
图1(第13页)—— 估值因子分市值超额年化收益率分组回测结果
该图由三组柱状图组成,分别对应大市值、中市值、小市值股票。横轴为不同估值因子,纵轴为各因子5组分组股票的超额年化收益率。
- 大市值部分: 除CETOP外,所有估值因子组间收益呈明显单调递减或递增,表现最佳因子排序差异最大,表明估值因子在大市值股票具备优异选股能力。
- 中市值部分: 单调性及组间收益差异依然存在,但弱于大市值。
- 小市值部分: 多数估值因子区分度低,收益差异小,表明估值因子在小市值股票效果有限,验证了因子对不同市值股票表现差异显著。
这数据直接支持理论推断,估值类因子的应用更适合于大中市值股票筛选[page::13]。
图7(第21页)—— 动量因子分市值超额年化收益率分组回测结果
同样呈现大、中、小市值三组柱状图,横轴为动量因子,纵轴为分组间超额收益率。
- 小中市值部分分组收益呈较明显的递增趋势,且整体收益比大市值更高,动量因子在这两者中区分能力优异。
- 大市值分组表现较弱,且分组收益间距离小,显示其选股敏感性较低。
这体现出中小市值股票的收益更受动量驱动,动量因子成效更佳,验证报告观点[page::21]。
表14(第29页)—— 单因子测试结果汇总
该表综合了各因子在回归显著性、IC值及分层回测收益和风险指标的表现,辅以多重共线性考察,最终筛选出表现最佳的各因子。它是整个单因子测试工作的总结和功臣,展示了哪些因子在选股中“站得住脚”,为构建稳健多因子模型奠定坚实基础。
---
4. 估值分析
本报告中尚未开展多因子估值模型构建,仅完成单因子因子检验与回测。估值方法将在今后报告中基于本阶段筛选结果执行。
报告中的单因子收益模型采用回归加权最小二乘法估计因子收益率,结合分层回测评估因子单独的选股能力。该模式是多因子模型方法论中的必要准备步骤,保障后续多因子模型的因子组合有效性[page::3,4,9,10,29]。
---
5. 风险因素评估
报告未单列风险章节,但暗含风险讨论:
- 数据质量风险:因子数据的对齐、去极值与缺失值处理均强化稳健性,但证券市场数据固有波动仍存。
- 多重共线性风险:高相关因子会致使回归参数失真,报告会增加筛选与后续逐步回归等处理。
- 模型风险:回归基于历史数据,且因子有效性在不同市值股票间表现迥异,模型稳定性及未来有效性存不确定。
- 未来事件风险:财报时间延迟调整、停牌、股票复牌时涨跌停限制解除等对回测结果产生扰动。
报告提出通过多重共线性控制与数据预处理等方式减缓风险,但未提供硬性量化风险概率或缓解策略[page::8,9,11,14,29]。
---
6. 审慎视角与细微差别
- 报告在筛选因子时依赖统计显著性与实证分层回测表现,但未深入探究因子在不同市场环境中的表现及结构性变换影响。
- 动量因子短周期和长周期表现差异揭示市场特性和流动性影响,未来多因子模型中需更多考虑因子动态权重调整。
- 多重共线性处理目前较初步,建议未来增加VIF检测和因子聚类减少信息冗余。
- 报告认可部分因子(如市值beta)尽管方向不稳定但因风险控制重要而保留,提醒模型构建需平衡收益和风险维度。
- 小市值股票因子有效性整体远低于大市值,折射A股市场结构性差异,未来模型多层次设计尤为关键。
- 报告中的因子定义以及数据处理方式均依赖于Wind和Barra等数据标准,说明研究具有较高行业权威性与严谨性。
---
7. 结论性综合
本报告全面系统完成了对A股市场107个单因子的回归显著性测试和分层回测评估,涵盖估值、盈利、成长、动量、波动率及流动性六大类因子。设计严谨的数据预处理确保模型不会被极端值及数据缺失干扰,采用WLS回归方法和信息系数指标综合验证因子预测能力。通过细致回测发现:
- 估值和盈利因子主要适用于大中市值股票,特别是市净率倒数(bpIf、bprel)、EPFWD、ROE相关因子,表现出了较为稳定和显著的收益区分能力。
- 动量、波动率及流动性因子更适合中小市值股票,其中修正动量因子RSTRm6表现尤为突出,波动率指标dastd及成交量VOL1和换手率STOM也有效区分了不同盈利能力的股票。
- 成长类因子显著性相对偏弱,但季度同比增长率因子对不同市值股票仍具备一定选股能力。
- 多重共线性存在于同类因子内部,报告建议在后续多因子模型构建时选用代表因子以减少冗余。
- 综上,报告筛选出10个绩优单因子,准备进行下一步多因子收益模型构建和风险模型估计。
该报告为传统量化选股中关键一步,确保后续多因子研究更具科学性和实用性,有助于提升量化投资组合的收益与风险管理水平[page::0-29]。
---
附:主要图片示例
图1:估值因子超额年化收益率分组回测结果

图7:动量因子超额年化收益率分组回测结果

表14:单因子测试结果汇总
(表格内容未详细展示,但为报告核心内容,合成了所有因子评测指标)
---
总结
本报告客观严谨、系统详尽地完成了A股多因子模型构建中单因子测试的关键环节,结合理论与数据实证挖掘出一批具备显著性和选股能力的单因子,明确了不同因子与不同市值股票的关系,为多因子模型的搭建与优化提供了坚实基础。其方法科学、数据充分,结论对量化投资和多因子研究均有重要参考价值。