`

基于相似股票历史收益的选股因子研究

创建于 更新于

摘要

本文基于股票价格、规模、风险、盈利能力与投资水平五个维度构建欧氏距离,定义股票相似性,并据此设计相似股票动量因子。实证显示该因子在A股市场稳定有效,IC均值为0.0305,多空组合年化收益率达12.89%,最大回撤8.39%。基于行为金融学理论,控制异质波动、流动性、动量和规模变量后,因子仍具显著解释力。通过敏感性分析,选择相似股票样本容量80或距离阈值1、及过去1个月的历史收益作为指标能保证因子有效性。进一步构建相似预期差因子,结合自身和相似股票历史表现,IC提升至0.0910,年化收益率达18.72%,最大回撤8.60%,显著优于相似动量因子,表现稳健。[page::0][page::4][page::6][page::9][page::11][page::12][page::14][page::15][page::16]

速读内容

  • 因子构建及定义 [page::3][page::4]:

- 利用股价、规模、市净率、净资产收益率和资产增长率五个维度的欧氏距离衡量股票相似性。
- 相似股票动量因子定义为距离最近的r只股票过去一个月收益的市值加权平均。
  • 因子有效性检验 [page::4][page::5][page::6]:

- 分组检验显示,相似动量因子对应的多空组合平均月收益1.01%,年化收益12.89%,最大回撤仅8.39%,且收益显著单调递增。


- 信息系数(IC)均值为0.0305,IR为0.2689,IC正向比例61.67%,IC累计稳定上升。
  • 多因子回归分析证明因子增量信息 [page::7][page::8]:

- 与异质波动率、非流动性、动量、市值同时回归,控制多种因子后,相似动量因子依然显著,说明提供了新的选股信息。
  • 参数敏感性分析 [page::9][page::10][page::11][page::12]:

- 样本容量:IC随相似股票样本容量增加呈先升后平稳,80只为最佳样本容量。

- 距离阈值:IC在距离阈值1时达到峰值0.0340,优于固定样本容量方式。

- 历史收益长度:过去一个月的市值加权平均收益效果最佳,超出1个月后IC明显降低。
  • 相似预期差因子的改进 [page::12][page::13][page::14][page::15][page::16]:

- 构建因子为相似动量因子减去股票自身一个月收益,捕捉投资者预期差异。
- 分组净值图初看异常,因最高因子组同时包含涨幅较少和跌幅较大的股票。

- 通过超额收益划分强弱势组后,强势组中分组检验显示多空组合月收益1.44%,年化收益18.72%,Sharpe达1.47,最大回撤8.60%。

- 信息系数IC均值为0.0910,IR为0.9609,极具显著性和稳定性。
- 累计IC及净值均显著优于相似动量因子。

- 多头组合年化超额收益明显,高于沪深300及万得全A指数。
  • 研究结论与展望 [page::16][page::17]:

- 相似股票动量因子及相似预期差因子均在控制多因子信息下有效,能够为A股市场选股提供增量信息。
- 未来研究可引入更多维度指标、行业变量构建相似度,亦可基于行业层面设计轮动策略。
  • 风险提示:

- 研究基于2016-2021年历史数据,未来市场环境变化可能导致因子表现不同,应谨慎使用本因子策略。[page::0][page::4][page::6][page::7][page::8][page::9][page::11][page::12][page::13][page::14][page::15][page::16][page::17]

深度阅读

金融研究报告详尽分析报告


报告标题:基于相似股票历史收益的选股因子研究
发布机构:西南证券研究发展中心
发布日期:未明确说明,但研究数据为2016-2021年
主题:A股市场中的选股因子研究,尤其是基于“相似股票历史收益”的动量因子构建及其有效性检验

---

1. 元数据与概览



本报告由西南证券研究发展中心发布,针对A股市场基于相似股票历史收益的新型选股因子——相似股票动量因子及其改进因子——相似预期差因子进行了系统研究。报告核心目标是探讨为何经典美股市场上的动量因子效果在中国A股表现不佳,并创新性地构建了一个基于股票间“距离”定义的相似动量因子,进一步结合股票自身历史收益构造相似预期差因子,验证其选股有效性。最终,多空组合策略显示稳健的正收益,且对市场已知因子具有信息增补价值,显著提升 alpha 生成能力。

报告主要结论:
  • 相似股票动量因子与个股下期收益正相关,IC均值0.0305,信息比率(IR)0.2689;

- 多空投资组合月均超额收益1.01%,年化12.89%,最大回撤8.39%;
  • 控制异质波动率、流动性、动量、规模等因子后,相似动量因子依然显著有效,提供新信息;

- 相似预期差因子引入股票自身历史收益后效果更优,IC均值0.0910,月均收益1.44%,年化18.72%;
  • 相似预期差多头组合年复合增长率25.23%,明显优于市场基准。


风险提示强调因子基于历史数据,未来表现依赖市场环境稳定性。[page::0,16,17]

---

2. 逐节深度解读



2.1 因子构建



2.1.1 股票距离与相似股票


报告借鉴He, Wang, Yu(2021)提出的“股票距离”定义,通过欧氏距离计算股票对间距离,综合5个维度指标:
  • 股票价格 ($Pi^t$)

- 市值的对数 ($Sz
i^t$)
  • 账面市值比 ($BMi^t$)

- 净资产收益率 ($RE
i^t$)
  • 资产增长率 ($Ivi^t$)


以标准化后数据做欧氏距离,排除历史收益避免动量成分干扰。距离越小,说明越“相似”。定义相似股票为距离最小的一批股票。此定义旨在捕捉投资者感知的“代表性启发”与行为金融学中的认知偏差(锚定效应、后悔理论)[page::3]。

公式如下:
$$
D
{ij}^t = \sqrt{(Pi^t - Pj^t)^2 + (Szi^t - Szj^t)^2 + (BMi^t - BMj^t)^2 + (REi^t - REj^t)^2 + (Ivi^t - Ivj^t)^2}
$$

2.1.2 相似股票动量因子构建


相似股票动量因子 $SIMi^{(t)}$ 定义为与股票 $i$ 最近 $r$ 只股票的前一个月收益的市值加权平均,权重为相似股票的市值权重。其构造逻辑为投资者对相似股票历史表现的观感影响其未来收益预期,体现为代表性启发及路径依赖效应。

定义公式为:
$$
SIM
i^{(t)} = \sum{k=1}^r Wk Rk^{(t-1)},\quad Wk = \frac{Szk}{\sum{j=1}^r Szj}
$$

其中 $R
k^{(t-1)}$ 是第 $k$ 只相似股票前一个月收益率。因子值越大,相关股票未来收益率越高的预期越强[page::4]。

---

2.2 因子有效性检验



2.2.1 分组检验


采用2016年12月至2021年12月的全市场数据,参数设定为 $r=80$,即选取每只股票最相似的80只股票构建 $SIM$ 因子。将股票按照因子值分为5组,考察下期收益,排除市值数据缺失带来的噪声。

表1(分组检验)详细数据解读:
  • 因子均值从组1的-0.0315逐步上升至组5的0.0359

- 平均月收益率由-0.29%逐步增至0.72%
  • 多空组合(组5-组1)月均收益1.01%,年化12.89%,t值2.71显著,显示统计上高度显著

- 夏普比率稳定在0.3左右,最大回撤控制在29.15%,多空组合最大回撤更低仅8.39%
  • 月胜率最高组达60%,多空组合胜率66.67%,回测稳定性较好


图1显示分组累计净值随时间变化趋势,历史净值差异显著,且具有明显单调性,印证了因子有效性。图2多空组合净值平稳上升,2018年熊市波动后2019年牛市持续增长,几乎无大幅回撤,说明因子具备抗风险能力及稳定收益属性[page::4,5]。

2.2.2 信息系数分析


IC均值0.0305,置信水平95%拒绝零假设,IC与均值同向比例约61.67%,IR=0.2689,表明相似动量因子对未来收益的预测能力显著且稳定。图3展示累计IC持续稳定上升,增强了因子在不同市场环境下的普适有效性[page::6]。

2.2.3 相关性与回归分析


报告进一步通过相关系数矩阵和Fama-Macbeth回归,控制了异质波动率(Ang et al.,2006)、Amihud流动性指标、动量、规模等已知因子,分析相似动量因子的独立信息贡献。

表3(因子相关矩阵):
  • 相似动量因子与异质波动率、流通市值相关弱 (<0.1)

- 与动量和非流动性有一定相关(0.543和-0.141)暗示信息重叠可能,但不完全

表4(单因子回归):
  • 相似动量因子回归系数0.1544,显著(t=2.76)

- 异质波动率、非流动性显著,动量与市值因子不显著
  • 说明单独考察相似动量因子时对收益有预测价值


表5(多因子Fama-Macbeth回归):
  • 控制异质波动率、非流动性、动量、规模后,相似动量因子系数均保持正向且显著(99%置信水平)

- 说明相似动量因子包含市场尚未充分定价的新信息
  • 最高可决系数为4.18%,因子解释力有限但具有补充性


综上,实证表明该因子不仅有效且信息独立,对选股具有潜在增益作用[page::7,8]。

---

2.3 敏感性分析



关键参数包括:相似股票样本构建方式(固定样本容量vs固定距离阈值)及历史收益率的度量时长。

固定容量样本分析:
IC均值随样本容量从20增至80逐渐提升,之后波动趋稳(约0.0305)。样本容量小保留个股特征强,但偏误大;样本容量大降低特征差异,导致因子效能下降,80为最佳平衡点。

(图4)[page::9]

固定距离阈值样本分析:
以某股票(西南证券600369.SH)2021年11月底股票距离分布为例(图5),大部分距离集中在(0,3]区间。

(图5)

IC均值随距离阈值(0.2到3)变化呈先升后降走势,最大期为距离阈值1时IC=0.0340,优于固定容量构建方式,说明严格控制距离阈值能获得更优代表性样本。

(图6)[page::10,11]

历史收益度量敏感性:

以过去m个月市值加权平均收益率衡量历史收益,IC均值随m的增加从1到6个月整体下降,1个月历史收益表现最优(IC=0.0305)[page::11]。

---

2.4 因子改进与优化——相似预期差因子



结合投资者心理学中代表性启发、后悔理论和路径依赖,报告引入股票自身历史收益率 $ri^{(t)}$,构建相似预期差因子:

$$
\Delta ER
i^{(t)} = SIMi^{(t)} - ri^{(t)}
$$

若因子值大,说明相似股票历史收益高但个股自身尚未上涨,投资者预期存在上涨空间,宜积极投资。

回溯测试发现相似预期差因子的IC均值高达0.0450(优于设定阈值构建的SIM因子0.0340),显示更强选股能力。按因子值分组计算投资组合累计净值,初步统计组5(因子最大组)净值表现反转,未呈显著单调性(图8)。

分析其因由,组5股票混合了两类情况:
  • 股票自身正收益且相似组收益高,符合预期买入情景;

- 股票自身负收益但相似组收益高,反映投资者不看好该股,形成信息混淆。

为消除上述偏误,报告基于前月超额收益(相对万得全A指数),将股票划分为强势组(前月超额收益正)和弱势组(负或零),并在强势组内按$\Delta ER$构建投资组合。

强势组内分组检验(表6)显著优于单纯分组,呈现统计上显著的收益递增关系,且多空组合收益(年化26.08%)显著超额表现,Sharpe比率和最大回撤等指标均优于SIM因子。

图9显示,控制股票自身市场表现后,相似预期差因子各组积累净值单调性显著,获得更稳定的投资信号。

表7与图10的IC分析进一步显示,$\Delta ER$因子IC均值0.0910,t值7.44,信息比率0.9609远优于SIM因子,累计信息系数稳定且持续攀升。

图11模拟了多头组合与沪深300及万得全A指数的净值对比,$\Delta ER$多头组合整体表现卓越,截止样本期末累计净值3.08,年化复合增长率达208‰,显著优于市场基准[page::12-16]。

---

3. 图表深度解读



表1(相似股票动量因子分组检验结果)


清晰展现了分组因子均值从负逐步到正与对应的下期平均月收益的显著正相关,说明基于相似股收益构建的因子能有效区分未来表现,统计显著,业绩稳健。

图1(相似股票动量因子分组净值)


多组净值轨迹期内差异显著,分组间净值明显分层,充分展现因子的划分能力和时间上的稳定性。

图2(多空组合累计净值)


多空组合稳步上升,波动和回撤低,强调因子能抵御市场剧烈波动,呈现正收益。

表2(信息系数分析)


IC均值显著不为零,IC与均值同向概率超过60%,信息比率接近0.27,反映因子的预测能力虽非特别高但稳定有效。

图3(累计信息系数)


持续上升曲线印证因子信息价值不断累积,表现稳定。

表3(因子相关系数矩阵)


相似因子与已知因子关联程度说明其信息独特性。尤其与规模、异质波动率相关性非常低。

表4-5(单因子及多因子回归)


相似因子在控制其他因子后仍然显著,证明其选股效果非其他因子简单复制。

图4-6(敏感性分析图像)


通过IC曲线说明了参数选取(样本容量、距离阈值)对因子有效性的影响,明确80个样本容量及距离阈值1的优化方案。

图7(历史收益度量敏感度)


确认1个月收益率是最有效的对未来收益预测指标,强化了因子构建方法论基础。

图8-11(相似预期差因子相关图表)


图8初始净值分组混乱,后续通过超额收益筛选得到净值明显分层(图9),信息系数统计大幅提升(表7),累计IC曲线稳定上升(图10),最终多头组合净值显著超越市场(图11),充分展现因子的改进效果。

---

4. 估值分析



报告未涉及具体公司估值或现金流折现等估值方法,研究焦点为因子构建与实证效果检验,故不涉及传统股票估值模型。

---

5. 风险因素评估



报告指出:
  • 因子基于2016-2021年历史数据,未来市场环境若显著变化,因子表现可能偏离历史结论。

- 相似股票动量因子和相似预期差因子的表现依赖于市场结构和行为模式的稳定性。
  • 策略效果可能受宏观经济波动、制度变动及市场流动性等系统性风险影响。


报告未详细展开缓释策略,提示用户需警惕历史时序依赖与市场结构突变风险[page::0,17]。

---

6. 批判性视角与细微差别


  • 因子的信息系数(IC)虽显著,但水平偏低,实际操作中alpha信号需要与交易成本、流动性风险等综合考量。

- 多因子回归模型整体可决系数较低(最高约4.18%),说明模型无法捕获所有收益波动,存在未包含因子。
  • 初版相似预期差因子未控制自身历史收益导致组5净值反转,体现投资者预期偏差复杂性,反映了因子构建中潜在的非线性与异质性问题。

- 报告仅基于A股市场样本验证,因子跨市场及市场周期稳定性有待进一步研究。
  • 未来引入行业变量和不同距离量化方式可能提升因子表现,但当前研究未充分展开。

- 报告高度依赖行为金融理论对因子解释,现实中投资者行为多样且难以完整建模,此假设需谨慎使用。

---

7. 结论性综合



本报告系统构建了基于股票间多维度欧氏距离定义的相似股票样本,进而构造了相似股票动量因子,同时结合自身历史收益引入相似预期差因子,实证显示两因子均能稳定有效预测A股下期收益,其中相似预期差因子表现更为优异。

关键数据指标指出,多空组合平均月收益率分别达到1.01%(相似动量因子)与1.44%(相似预期差因子),年化收益12.89%及18.72%,最大回撤低于10%,信息系数和信息比率均衡稳定。

图表呈现指标稳健且趋势清晰,参数敏感性分析合理界定了样本容量、距离阈值及历史收益时间窗口,确保因子稳定性。

回归分析确认因子能够提供除异质波动率、非流动性、动量和规模以外的新信息,体现选股意义。

尽管存在一定局限性和风险,报告表明相似股票动量因子及其改进版相似预期差因子是具备实际投资意义的选股工具。

报告最终确认,相似预期差因子优于相似动量因子,是更具潜力的alpha来源,且推荐强势股票分组运用以规避负收益扰动,获得显著超额回报,其多头组合累积收益表现优于沪深300及万得全A指数。

报告评级虽未明示个股买卖建议,但结合年化收益及统计显著性,可理解为该因子具备显著的投资参考价值,并体现西南证券对该因子体系的高度认可[page::0,12-16,19]。

---

综上,报告以严谨的数据分析与行为金融理论为基础,深刻揭示相似股票历史收益对A股市场选股效能的新视角,具备较强的学术价值和实际投资指导意义。

报告