`

利用CART决策树选股

创建于 更新于

摘要

本报告介绍了CART决策树算法在科技板块截面选股中的应用,阐释了模型如何捕捉因子间的非线性交互关系。研究通过静态树与动态进化树两种方法,展示了模型的稳健性和优越的预测能力。动态进化树相比传统单因子或多因子模型,表现出更高的夏普比率与显著的多空收益,月度多空收益率达1.47%,年化收益率19.22%,夏普比率1.15,显著优于普通因子筛选策略 [page::4][page::6][page::10]。

速读内容


CART决策树模型优势与应用背景 [page::0][page::2]

  • CART决策树克服传统线性模型局限,能有效捕捉变量间非线性和交互影响。

- 通过递归分类,自动确定因子层次和重要性,提升选股模型解释力和预测准确性。
  • 模型适用科技板块截面数据,区分表现优劣股票组合。


静态树模型构建及绩效表现 [page::3][page::4][page::5]


  • 构建了1993-1995年训练,1996-1999年测试的静态树模型。

- 模型优先根据EPS-MOM分组,再递归细分ROA和CFLOW-PRICE。
  • 多空策略月均超额收益1.40%,年化收益率约17.95%,夏普比率0.94,统计显著。




动态进化树模型及优越性 [page::6]


  • 每月更新训练样本和树结构,提高样本外预测能力。

- 模型随着时间逐步进化,适应市场与企业变化。
  • 动态模型实现更高的多空超额收益,月均1.47%,年化收益率19.22%,夏普比率1.15。




模型对比与因子选取分析 [page::10]


| 模型 | 多头平均收益 | t统计量 | 空头平均收益 | t统计量 | 多空收益差 | t统计量 | 年化收益率(%) | 夏普比率 |
|----------------|------------|--------|------------|--------|----------|--------|-------------|---------|
| 静态树模型 | 0.91 | 2.49 | -0.48 | 1.69 | 1.40 | 2.94 | 17.95 | 0.94 |
| 动态进化树模型 | 0.75 | 2.39 | -0.72 | 2.21 | 1.47 | 3.25 | 19.22 | 1.15 |
| EPS-MOM单因子 | 0.62 | 2.01 | -0.63 | 1.89 | 1.25 | 2.76 | 14.62 | 0.60 |
| ROA单因子 | 0.12 | 0.38 | -0.12 | 0.37 | 0.24 | 0.53 | 1.85 | 0.27 |
| CFLOW-PRICE单因子 | 0.18 | 0.62 | -0.19 | 0.55 | 0.37 | 0.82 | 6.00 | 0.07 |
| 因子均值(EPS-MOM, ROA, CFLOW-PRICE) | 0.28 | 0.93 | -0.32 | 0.92 | 0.60 | 1.31 | 7.65 | 0.23 |
  • CART决策树模型显著优于单因子及简单多因子策略,动态进化树表现最佳。

- 关键因子涵盖盈利修正、净资产收益率变化及现金流估值指标。[page::10]

深度阅读

海外文献推荐(第62期) 利用CART决策树选股【天风金工吴先兴团队】详尽分析报告



---

1. 元数据与概览



标题:海外文献推荐(第62期) 利用CART决策树选股
作者:吴先兴(天风金工团队)
发布机构:天风证券股份有限公司
发布时间:2018年11月7日
主题:机器学习中的CART决策树算法在股票筛选模型中的应用,特别针对科技板块的截面选股

核心论点
本文基于Eric H. Sorensen等人于2000年发表于The Journal of Portfolio Management的论文,探讨CART(分类和回归树)决策树在股票选股中的实际应用。相比传统的线性模型或判别分析,CART的优势在于其能够捕捉因子之间的非线性关系及相互依赖,通过递归分割自动确定因子优先次序与交互方式,从而构建更有效的选股模型。实证中,作者以罗素1000科技板块为例,证明动态CART模型(进化树)在多空收益与夏普比率上均显著优于静态模型及单因子模型。

---

2. 逐节深度解读



2.1 简介与研究背景(第0页)


  • 报告指出传统的股票筛选方式包括多重筛选和多变量打分,但这些方法存在明显缺陷:

- 多重筛选容易因为单一因子的阈值限制,导致整体符合要求但被排除;
- 多变量打分虽然综合多个指标,但权重分配往往主观且不够灵活,不能有效解决因子间的非线性和依赖性问题。
  • CART模型通过二分类树结构(递归分类算法)自动决定因子优先级及其交互规则,实现条件组合的优化,提升筛选效果。
  • 示例中以科技板块选股为例,强调估值因子、动量因子间的层次关系及交互作用对投资效果的重要性。

本节明确了CART决策树在量化选股中解决多因子复杂交互及非线性的独特优势,为后续实证与算法介绍奠定基础。[page::0]


2.2 CART决策树算法基础(第0-2页)


  • 介绍CART算法的起源和基本逻辑:

- Breiman等1984年首次提出,用于医药领域,后扩展到金融,尤其时间序列问题。
- 递归分类算法基于“如果-那么”规则递归分割样本,最终形成层次分明、变量优先级明确的树结构。
- 通过熵(无序度)的减少来寻找最佳变量及阈值,将样本分类成同质性更高的组。
  • 通过图示(图1,Page 1)展示在不同信用利差情形下标普500与债券收益率的隐含非线性关系,线性模型难以捕获,而CART能发现环境条件下隐藏的关系。
  • 数据分类与分组技巧:

- 离散分类自变量和因变量为建模准备有效初始步骤。
- 例如根据市值溢价或市场波动率分组,以增强模型预测稳定性。
本章系统说明了CART决策树的数学机理及其在数据处理上的优势,尤其是变量优先级和阈值选择的意义,从技术层面强化模型优于线性回归的理论基础。[page::0,1,2]


2.3 样本与输入变量定义(第2-3页)


  • 使用1992年-1997年罗素1000科技板块月度股票收益率数据,计算超额收益率(相对该月份所有股票收益率中位数),将因变量定义为二元分类(高于还是低于平均水平)。
  • 关键自变量共6个,均为量化投资常用因子,涵盖估值、盈利表现、分析师预期、价格动量:

- SALES-PRICE(市销率倒数)
- CFLOW-PRICE(市现率倒数)
- EPS-PRICE(分析师一致预期EPS)
- ROA%(净资产收益率同比变化)
- EPS-MOM(分析师一致预期EPS变化)
- PRICEMOM(过去一个月股票收益率)
  • 每个变量基于分位划分为5组,有效避免过拟合及模型复杂度膨胀。

因子的选择基于对市场普遍认可且具备解释力的指标,5分位划分是避免CART过度拟合的关键步骤,保障模型解释性与稳定性。[page::2,3]


2.4 静态树模型(第3-5页)


  • 将数据分为两个时间段:1993-1995年(训练集)、1996-1999年(测试集),建立单一树模型,称为“静态树”。
  • 树结构第一层以EPS-MOM作为根节点阈值3.5分割,进一步递归分割节点以ROA动量(阈值1.5)和CFLOW-PRICE(阈值3.5)等指标。
  • 逻辑符合直觉:盈利预期修正高且ROA改善显著的企业更可能在随后月份表现优异。
  • 投资组合构建:

- 多头组合为树模型预测表现超平均的股票等权持有;
- 空头组合为预测表现不佳的股票等权持有。
  • 绩效表现:

- 多头组合显著战胜空头组合;
- 多空组合年化超额收益约13.92%,统计检验均显著;
- 平均每月多空超额收益1.40%,5%显著性水平下区别于零。
  • 相关图表(图2静态树结构、图3月度收益、图4净值曲线)清晰展示了模型划分规则与收益表现。

该部分充分展示了决策树模型对多因子交互关系的深入利用和预测的现实有效性,树结构逻辑自然且符合市场基本面分析,同时提供了统计与实证支持。[page::3,4,5]


2.5 进化树模型(动态树)(第5-6页)


  • 进化树模型区别于静态在于每个月用迄今全部样本训练最新的树结构,动态更新递归分类结构。
  • 该方法优点:

- 利用更多数据确保模型统计显著性;
- 允许模型渐进式调整,适应市场和企业基本面的变化;
- 长期来看树结构存在明显变化,更符合实际动态市场情形。
  • 以1999年10月树结构为例(图5),动态树比静态树结构更加复杂,包含更多变量交互条件。
  • 进化树的样本外多空收益表现优越:

- 月均多空收益1.47%,显著水平超过0;
- 年化收益19.62%,夏普比率1.23;
- 多空收益和净值曲线(图6、图7)表现优于静态模型。
动态调整模型强大的适应能力使其在样本外表现更佳,兼顾历史经验与新信息,是递归分类在量化投资中应用的理想方式。[page::5,6]


2.6 性能对比与评估(第6页)


  • 与单因子模型及简单多因子加权模型对比,两个CART模型夏普比率与年化收益显著更优。
  • 表中核心数据指标:


| 模型 | 多头组合超额收益均值(%) | 多头T统计量 | 空头组合超额收益均值(%) | 空头T统计量 | 多空收益均值(%) | 多空T统计量 | 年化收益(%) | 夏普比率 |
|----------------------|-------------------------|------------|-------------------------|------------|----------------|------------|------------|------------|
| Static Tree Model | 0.91 | 2.49 | -0.48 | 1.69 | 1.40 | 2.94 | 17.95 | 0.94 |
| Evolving Tree Model | 0.75 | 2.39 | -0.72 | 2.21 | 1.47 | 3.25 | 19.22 | 1.15 |
| 单因子(EPS-MOM) | 0.62 | 2.01 | -0.63 | 1.89 | 1.25 | 2.76 | 14.62 | 0.60 |
| 单因子(ROA) | 0.12 | 0.38 | -0.12 | 0.37 | 0.24 | 0.53 | 1.85 | 0.27 |
| 单因子(CFLOW-PRICE)| 0.18 | 0.62 | -0.19 | 0.55 | 0.37 | 0.82 | 6.00 | 0.07 |
| 多因子均值模型 | 0.28 | 0.93 | -0.32 | 0.92 | 0.60 | 1.31 | 7.65 | 0.23 |
  • 结论:进化树模型不仅多空收益更高,且统计显著性更强,夏普比率接近1.2,远超多个单因子及简单加权多因子模型。

通过系统对比,报告充分说明了递归决策树模型在股票筛选中的优越表现,尤其动态模型通过适时更新提高了预测能力和投资组合绩效。[page::6]


---

3. 图表深度解读



图1:不同信用利差下标普500收益率-债券收益率关系(第1页)


  • 四个象限显示不同信用利差分位(四分位)下,标普500超额收益与债券收益率曲线的关系。
  • 解析:

- 在信用利差最宽 Quartile 4(右上角)时,债券收益率陡峭与标普500表现有明显正相关;在其他分位(Quartiles 1-3)相关性不显著。
  • 含义:

- 这揭示了经济环境对资产收益的条件依赖性,且线性模型难以捕获这一切换关系,CART模型具备识别该非线性隐藏关系的优势。

图2:静态树模型结构图(第4页)


  • 树顶层以EPS-MOM=3.5为阈值分割,递归至ROA=1.5,EPS-MOM=4.5继续分裂,最后根据CFLOW-PRICE做终点分割。
  • 该树结构逻辑清晰,展示因子间的优先级和层级交互,符合市场对盈利预期和盈利质量的重视。


图3 & 图4:静态树模型月度收益与净值(第5页)


  • 图3两组柱状图显示多头组合月度收益普遍为正,空头组合波动较大,证明选股有效性。
  • 图4净值曲线显示多头组合净值明显高于空头组合和整体市场,月度多空策略表现出较好稳定性和收益性。


图5:动态树结构(1999年10月)(第5页)


  • 动态树比静态树更深入,引入更多分割点,CFLOW-PRICE阈值降低到1.5,体现模型根据最新数据动态调整。
  • 结构更复杂但仍保留盈利预期(EPS-MOM)和盈利变化(ROA)主导位阶,说明因子作用随着时间有微调。


图6 & 图7:动态模型月度收益及净值表现(第6页)


  • 图6显示动态模型多头组合月度表现更为稳健,空头组合相较波动有所增大,表现优于静态模型。
  • 图7净值曲线呈稳步上升的趋势,动态多空组合年化收益达19.6%,夏普1.23,明显优于静态模型和基准策略。


---

4. 估值分析



报告未涉及传统意义上的企业估值(如DCF、市盈率估值等),重点在于选股模型的构建与评估。因此估值部分按选股模型估值思路说明:
  • CART决策树在模型优化中,通过熵(无序度)最小化选择分割因子与阈值,努力实现数据分类的最优纯度,即通过数学定式量化变量影响力与分割点。
  • 静态模型与动态模型形成不同结构的决策树,分别对应一套映射规则用于对股票未来表现的“估值”分类预测。
  • 优化目标是提升模型对未来表现的预测准确度,从而反映在多空组合的收益和风险调整后回报。


---

5. 风险因素评估



报告中未显式设置独立章节讲风险,但从内容可隐含如下风险与挑战:
  • 过拟合风险:模型复杂时易对历史特征“记忆”过多,导致未来预测表现下降;5分位离散划分正是规避过拟合的措施。
  • 数据稳定性和有效性:市场因子关系可能随周期或宏观经济环境剧烈变化,静态模型预测能力弱于动态模型。
  • 样本截面限制:模型针对科技板块,跨行业可推广性或许有限。
  • 因素选择与解释风险:因子集合若有遗漏或数据质量问题,可能降低模型预测能力。


报告基于逐月动态训练的进化树部分,部分缓解了因市场变化带来的风险。

---

6. 批判性视角与细节


  • 模型局限性:报告中强调CART模型优于传统线性模型,但未详细讨论模型在复杂因子交互时的稳定性和可解释性限制。此外,模型的层次结构虽可视化,但对于多路径复杂树,业务层面理解仍存在困难。
  • 因子组合有限:所用因子数量有限,仅6项,虽覆盖主要风格,但未包括其他潜在有力因子,如波动率、成长率等。
  • 市场环境依赖:模型基于1990年代数据,现代市场环境、机构投资者行为、信息流变化或产生不同影响,该模型直接应用需谨慎。
  • 非交易成本讨论:未考虑交易成本、流动性等实际操作影响,可能影响多空策略的实际收益。
  • 对比基准简单:报告对比均基于基本单因子排序和均值,未与更复杂机器学习模型对比。


---

7. 结论性综合



本文通过详细解读和实证演示,深入阐释了CART决策树在截面选股中的创新应用及优越性:
  • 通过非线性递归分割,CART模型能够动态确定多因子间的优先级和交互关系,自动生成直观且符合经济逻辑的决策树结构。
  • 静态树模型已表现出优于单因子的预测能力以及显著的多空组合超额收益,反映了动量与盈利预期的重要作用。
  • 动态进化树模型在月度递归训练中进一步提升样本外预测性能,实现年化约19.2%的收益和1.15的夏普比率,显著高于静态树和简单多因子模型。
  • 报告图表系统呈现了模型树结构、收益表现及统计显著性,对比验证其真实性和稳健性。
  • CART决策树的优势不仅体现在提高预测收益,更在于其透明的模型结构,有助于投资决策解释和风险管理。


综上,基于CART的量化选股模型为截面选股提供了一种科学且有效的非线性工具,相较传统线性模型具备实质提升且便于理解的优势,尤其在动态市场环境中持续优化,具备较强的实用价值和推广潜力。[page::0,1,2,3,4,5,6]

---

重要图表(markdown格式)



静态树模型(图2):



动态树模型(1999年10月)(图5):



动态模型净值表现(图7):



---

结语



本报告深入解析并验证了CART决策树模型在选股中的实证优势及其动态估计能力,科学结合机器学习前沿技术与金融投资实践,为量化投资策略创新提供了重要方法论基础,具有较高的理论和实际参考价值。

报告