`

RiskMiner: Discovering Formulaic Alphas via Risk Seeking Monte Carlo Tree Search

创建于 更新于

摘要

本报告提出RiskMiner,一种结合风险偏好蒙特卡洛树搜索的量化因子自动挖掘框架,通过设计奖励密集型马尔可夫决策过程(MDP)和风险偏好策略优化,实现对最佳案例表现的专注优化。该方法利用结构化解空间信息,显著提升因子多样性和协同性,且在CSI300与CSI500等实证数据上优于多种最新基准模型。回测验证其在真实交易环境中具备更佳盈利能力,且消融实验进一步确证了各组件的有效性 [page::0][page::1][page::6][page::7]

速读内容

  • RiskMiner 框架设计与创新 [page::0][page::1]


- 将Alpha挖掘建模为奖励密集型MDP,解决传统奖励稀疏带来的学习不稳定问题。
- 采用蒙特卡洛树搜索(MCTS)高效探索离散的反向波兰表达式空间。
- 引入风险偏好策略优化,突出挖掘最佳表现因子,区别于平均表现优化。
  • 量化因子构建与Alpha池管理 [page::3]



- 使用反向波兰表示(RPN)编码因子公式,方便MDP状态定义。
- Alpha池采用线性加权合成,权重通过梯度下降优化,负贡献因子逐步剔除。
- 中间状态奖励结合单因子信息系数(IC)与互信息系数(mutIC),鼓励协同且低冗余的因子组合。
  • 风险偏好蒙特卡洛树搜索方法详解 [page::4]


- MCTS搜索包含选择、扩展、回滚与反向传播四阶段,结合基于风险偏好的策略进行采样和节点评分。
- 策略网络通过量化分位数优化专注上层奖励分布,提高发现优质局部最优因子的概率。
- 训练方式基于政策梯度方法,定量更新策略参数以最大化上α分位数的累计奖励。
  • 实验比较与基准测试 [page::6][page::7]

- 信号指标(IC, ICIR, RankIC)方面,RiskMiner在CSI300、CSI500数据集上均显著优于104个经典公式因子集Alpha101、遗传编程方法及最先进的Alphagen强化学习框架。
- 利用不同量化水平的风险偏好参数调整发现,适中风险偏好(量化水平0.85)最优,过度激进反复陷入局部最优。

  • 回测结果显示RiskMiner发现因子在实际交易中表现尤为突出,实现了最大的累计收益率,远超其他传统和机器学习模型。

- 消融实验验证MCTS与风险偏好策略各自贡献显著且协同提升性能,强调方法设计合理性和有效性 [page::7]
  • 综合以上,RiskMiner提供了一套系统有效的量化因子挖掘解决方案,兼顾发掘能力与稳定性,且具备实际应用潜力。

深度阅读

风险挖矿 (RiskMiner): 通过风险寻求蒙特卡洛树搜索发现公式化Alpha的深度解析报告



---

1. 元数据与报告概览



标题:RiskMiner: Discovering Formulaic Alphas via Risk Seeking Monte Carlo Tree Search
作者:Tao Ren, Ruihan Zhou, Jinyang Jiang, Jiafeng Liang, Qinghao Wang, Yijie Peng
机构:武汉人工智能研究院,北京大学光华管理学院,香江实验室,哈尔滨工业大学
日期与出处:2024年,作者提交至arXiv(全文11页)
领域与议题:量化投资中的公式化Alpha挖掘,应用蒙特卡洛树搜索(MCTS)与风险寻求策略的强化学习,股票趋势预测

报告核心论点
该研究针对公式化Alpha挖掘存在的奖励稀疏、离散搜索空间巨大以及忽视Alpha集合间相关性限制挖掘性能等问题,提出了一个新颖的框架RiskMiner。该框架将Alpha挖掘建模为奖励稠密的马尔可夫决策过程(MDP),并采用风险寻求蒙特卡洛树搜索方法,同时训练风险偏好策略网络,显著提升了Alpha搜索效率和最终组合预测性能。作者强调相比常规仅关注平均收益,风险寻求政策能更好聚焦于最优表现,从而带来更实用的盈利信号。通过在中国A股CSI300和CSI500两套真实数据集上的实验,RiskMiner全面超越包括当前最先进的Alphagen在内的各类基准方法,且在实盘模拟交易中实现更优的累计回报表现。

---

2. 逐节深度解读



2.1 引言(Introduction)



关键论点
  • 介绍了两种Alpha类型:公式化Alpha和机器学习Alpha,明确公式化Alpha因其解释性和可与机器学习模型结合而实用。

- 指出传统Alpha自动生成方法大多基于遗传编程(GP),以及最新的Alphagen采用强化学习中的PPO算法,将Alpha挖掘构建为MDP。
  • 识别当前方法的三大核心挑战:MDP奖励稀疏导致的学习非平稳,PPO难以有效利用离散的公式搜索空间结构,并且忽略了Alpha集合间的相关性,且只关注平均表现。

- 提出本研究的RiskMiner框架,通过设计奖励稠密MDP、引入蒙特卡洛树搜索和风险寻求策略,以系统方式提升Alpha挖掘效率和效果。

逻辑分析
  • 奖励稀疏的MDP严重降低学习收敛速度和稳定性,因此将Alpha挖掘转为奖励稠密的MDP,增加中间反馈非常关键。

- 离散的Alpha表达空间庞大且结构化,PPO等神经网络探索不足,MCTS的树形搜索结构天然适合捕捉此结构信息。
  • Alpha的组合表现受组成成员关联性影响,若Alpha高度相关,信息重叠导致组合表现受限,故挖掘“优秀且差异化”的Alpha集合更有价值。

- 针对Alpha挖掘强调最优策略的特点,风险寻求策略能够专注于最大化最佳回报而非期望表现,这对发掘极佳Alpha尤为重要。

---

2.2 相关工作(Related work)



核心内容
  • 回顾现有的公式化Alpha挖掘方法,尤其基于遗传编程的多项改进,以及使用强化学习的Alphagen框架。

- 指出现有强化学习方法奖励稀疏导致的非稳定学习问题,以及无法充分利用结构信息的缺陷。
  • 总结机器学习模型(如Transformer、DFT、扩散模型等)在股票趋势预测中的应用,但强调其对高质量公式化Alpha特征仍有强依赖。

- 介绍利用文本信息(新闻、LLMs)辅助预测的研究,但与本报告重点的公式化Alpha不同。

---

2.3 问题定义与基础概念



公式化Alpha定义


  • 以函数$f(\cdot)$表示的数学表达式,将股票价格等原始数据$Xt$映射为Alpha信号$zt=f(Xt)$。

- 评估指标为IC(信息系数),即Alpha与未来收益的Pearson相关系数,及其秩版本RankIC。IC统一范围在[-1,1],越接近±1表示预测能力越强。
  • 引入mutIC用以测量不同Alpha间的相关性,mutIC越高表示信息重叠越大。


Alpha组合挖掘


  • 构建Alpha池$\mathcal{F}=\{f1, f2,..., fk\}$,通过线性加权模型$c(\cdot|\mathcal{F},\omega)$合成组合Alpha信号$zt$。

- 目标不仅挖掘高IC的单一Alpha,更要通过降低Alpha间mutIC,提升组合Alpha的整体预测能力,实现协同增效。
  • 寻找“优秀且互补”的Alpha集合是研究的难点。


表达方式


  • 使用逆波兰表达式(RPN)表示Alpha公式,方便构建搜索空间和MDP状态,RPN为表达式二叉树的后序遍历序列(图3示例)。


---

2.4 方法论(Methodology)



Alpha池管理(4.1节)


  • 使用线性加权模型合成Alpha池内的多Alpha,利用均方误差损失拟合未来收益,并通过梯度下降优化权重$\omega$。

- 采用逐步增量更新方式加入新Alpha,池内Alpha数量达到上限时删除权重绝对值最小的Alpha。
  • 该机制保证Alpha池结构简单且高效,便于解释和迭代。


奖励稠密MDP设计(4.2节)


  • 构造状态$st$为当前选择的Tokens序列,动作$at$为下一个Token选择,序列起止为BEG和END Tokens。

- 设计中间状态奖励,当序列为合法但尚未结束时,计算该Alpha的IC与其对Alpha池内所有Alpha的mutIC,结合超参数$\lambda=0.1$,定义中间奖励:
$${\mathrm{Reward}}
{\mathrm{inter}}={\mathrm{IC}} - \lambda \frac{1}{k}\sum{i=1}^k {\mathrm{mutIC}}i$$
  • 终止奖励为Alpha加入池后综合Alpha的IC,长度最大30。

- 奖励稠密策略提供了比传统奖励稀疏环境更稳定、丰富的训练信号,促进学习收敛。

风险基蒙特卡洛树搜索(4.3节)


  • 利用四阶段搜索循环(选择、扩展、模拟、回溯)探索庞大搜索空间,结合策略网络给出动作概率。

- 采用PUCT策略(结合边的价值$Q(s,a)$与概率$P(s,a)$调整探索权重)指导选择动作:
$$at = \arg\maxa Q(s,a) + P(s,a) \frac{\sqrt{\sum_b N(s,b)}}{1+N(s,a)}$$
  • 策略网络作为树策略与Rollout策略使用,能够辅助搜索更快发现高价值节点。

- 回溯步骤中,利用折扣因子$\gamma=1$(完全重视未来奖励),递归更新边的价值和访问次数。
  • 通过采样得到的完整轨迹存入经验缓冲区,为风险寻求策略优化提供数据支撑。


风险寻求策略优化(4.4节)


  • 传统RL目标最大化预期累积奖励,缺乏关注尾部(极端)收益能力。Alpha挖掘更需要优化“最优情况”表现。

- 采用基于分位数的优化方法,关注累积奖励分布上分位数$q(\theta;1-\alpha)$的最大化,典型$\alpha$取值小于1,如0.6至0.95。
  • 采用迭代数值方法估计分位数,结合策略梯度推导(Theorem 4.1),实现基于上分位数的风险收益梯度更新。

- 使策略网络偏向发现并采样高回报轨迹,符合Alpha挖掘对潜在收益峰值的重视。

训练流程(4.5节)


  • MCTS和风险寻求策略训练交替执行,MCTS采样生成轨迹,策略网络训练后在下一轮作为搜索引导。

- 策略网络由GRU特征提取层和多层感知器构成,适合处理Token序列的时序依赖。
  • 整体流程算法伪代码详见附录。


---

3. 图表深度解读



3.1 图1:算法框架图(Page 1)





描述
展示了RiskMiner的整体算法结构。左侧,通过MCTS对MDP进行采样,生成轨迹;右侧,基于采样结果训练风险寻求策略网络;该策略网络再反哺MCTS,用于选择和Rollout。中间框是Alpha评估器,负责计算奖励信号。

解读
  • 该框架实现MCTS与策略训练的高效闭环,强化了搜索引导能力。

- 奖励稠密MDP设计使训练信号更加丰富,实现高效信息反馈。
  • 风险寻求策略让搜索重点偏向最佳表现,跳出平均最优陷阱。


---

3.2 图2:逆波兰表达式示意(Page 3)





描述
以表达式$Add(Std(\$close,10),\$open)$为例,左上展示了表达式树结构,右下展示对应的RPN序列(BEG → \$close → 10 → Std → \$open → Add → END)。

解读
  • 逆波兰符号作为状态空间的Token序列,为MDP状态转移与搜索空间离散化奠定基础。

- 该表示简洁明了,方便蒙特卡洛树搜索操作和策略网络的序列处理。

---

3.3 图3:奖励稠密MDP设计示意(Page 3)





描述
图示展示部分Alpha公式对应的Token序列及奖励分配:对于未结束的合法序列,简称中间奖励IC-λmutIC;终止序列则给予复合Alpha的总体IC综合奖励。

解读
  • 设计中间状态奖励能缓解奖励稀疏导致训练不稳定的问题。

- 结合个体Alpha表现和其对Alpha池的独特性指标mutIC,体现了“优秀且差异化”的挖掘目标。

---

3.4 图4:蒙特卡洛树搜索单轮流程(Page 4)





描述
清晰展示MCTS单轮工作流程:选择→扩展→模拟→回溯。示意树结构中各Token及动作选择过程,附带选择公式和奖励回传示意。

解读
  • 该流程保障搜索既依赖价值估计又保留探索的平衡。

- 通过rollout与风险策略结合,提高叶节点价值评估精度。
  • 经验轨迹存储为后续策略训练提供丰富样本。


---

3.5 图5:不同风险寻求量化因子$\alpha$下模型表现(Page 6)





描述
两图分别展示CSI300和CSI500数据集的5天和10天收益预测任务下,不同$\alpha$值时IC指标的变化趋势。

解读
  • IC随$\alpha$上升而提高,说明风险寻求策略有效聚焦高分位数回报轨迹。

- 但超过0.85后IC开始下降,表明过度追求高风险会导致过拟合当前最优局部极值,阻碍更广泛的探索。
  • 说明风险分位调节在挖掘过程中的重要性,需平衡探索与利用。


---

3.6 图6:CSI300回测收益率曲线(Page 7)





描述
展示報告期内,采用不同Alpha生成方法驱动的策略累计收益表现。RiskMiner曲线最高,明显优于第二名Alphagen及各机器学习模型。市值加权指数CSI300作为基准表现最低。

解读
  • 在熊市背景下(2021-2022),RiskMiner仍表现强劲,显示稳健的Alpha信号强预测能力和实用价值。

- 强调了策略挖掘中既要高度预测准确又要稳定的必要性。
  • 直接验证了风险寻求MCTS方法对实际交易绩效的提升。


---

3.7 表1:主流模型在CSI300和CSI500上的信号指标对比(Page 6)



描述
列示多次实验平均及标准差的IC、ICIR、RankIC指标,涵盖RiskMiner、Alphagen、遗传编程、Alpha101,以及多种机器学习模型。

解读
  • RiskMiner在所有指标上均领先,尤其是ICIR表明其预测能力最稳定。

- Alphagen虽IC及RankIC表现接近,但ICIR(指标波动率倒数)较低,说明不如RiskMiner稳定。
  • 传统GP方法及Alpha101表现显著退步,验证了时间演进中经典Alpha的陈旧性。

- End-to-end机器学习模型表现一般,凸显基于公式Alpha提取更优结构性特征的重要性。

---

3.8 表2:CSI300上的消融实验(Page 7)



描述
评估单独应用MCTS或风险寻求策略与二者结合的效果差异,指标为累计收益。

解读
  • 单用MCTS或单用风险策略均不及二者结合,说明两部分模块相辅相成。

- MCTS单独表现优于风险策略,但后者明显提升整体水平,证明风险寻求激励对搜索效率和结果质量的贡献。

---

4. 估值与实验分析



本报告无传统意义上的估值分析,但通过信号指标(IC/RankIC)及实证交易回测,综合展现框架挖掘的Alpha的价值。
  • 信号指标:IC、RankIC作为预测能力的行业标准评测指标,用以衡量Alpha对未来收益的相关性;ICIR则度量其稳定性。

- 实证回测:基于Alpha信号的多头股票选股策略,采用周度调仓,评估累计收益,全面体现Alpha实际交易中的盈利效果。

---

5. 风险因素评估



论文未专门列出系统风险,但以下可解读为潜在风险因素:
  • 风险寻求参数$\alpha$选择风险:若$\alpha$选取过大,模型易陷入局部最优,搜寻空间被过度利用导致性能下降。

- 模型过拟合:由于采用历史数据训练,风险在于回测优异且推广不足。
  • 市场环境变化:模型在熊市、牛市环境下表现可能差异,特别在极端条件下作用有限。

- 计算资源和时间成本:MCTS结合风险寻求策略的训练可能成本较高。

风险缓解未明确披露,但通过参数调优、交叉验证及长期回测来保证模型的稳健性和泛化能力。

---

6. 审慎视角与细节


  • 假设合理性:奖励稠密设计假设IC与mutIC计算在所有中间状态能有效评估公式优劣,但部分复杂表达式中计算稳定性待探讨。

- 风险寻求策略的非平衡探索性:过度强调最佳表现虽改善效率,但强化学习中的探索-利用平衡未阐述具体策略,可能导致多样性不足。
  • 操作数与操作符设计:严谨的算子与特征选择决定公式搜索空间边界,过宽空间可能导致样本不足问题,过窄则限制创新。

- 不确定性:文中未涉及因子寿命、风险管理等金融实操层面因素,建议后续研究完善。
  • 实验对比:机器学习模型基于普通特征未用深度特征工程,或影响其表现。


整体报告方法设计合理,论证严谨,但需后续工作验证在不同市场和时间段的泛化能力。

---

7. 结论性综合



本文系统介绍了RiskMiner,一个创新性的公式化Alpha挖掘框架。其核心贡献包括:
  • 设计奖励稠密的MDP,缓解传统稀疏奖励导致的学习不稳定,提供更频繁的反馈信号。

- 结合蒙特卡洛树搜索(MCTS)利用其强大的离散空间探索能力,充分挖掘Alpha表达式结构信息。
  • 引入风险寻求策略优化,关注Alpha挖掘的最优表现分位数而非平均收益,使搜索过程更聚焦潜在优质解。

- 制定Alpha池管理机制实现多Alpha协同,提高整体预测效果,保证了Alpha集合的互异性与创新性。
  • 通过丰富实验验证,在CSI300和CSI500两大中国A股市场真实数据上,RiskMiner在IC、ICIR、RankIC多指标均显著领先于现有先进方法如Alphagen及传统遗传编程,且在模拟交易中实现最高累积收益(约40%以上),显示出卓越的实际应用潜力。


分析表明,合理调控风险寻求的分位参数是平衡搜索效率和结果质量的关键。模型集成了高级强化学习与搜索策略,为金融领域的公式化Alpha自动发现开启了新视角。未来将结合LLM等文本信息挖掘“情感Alpha”,有望进一步提升挖掘策略的多样性和精准度。

综上所述,RiskMiner不仅理论贡献突出,实验结果也展现了其在量化投资Alpha挖掘上的先进性和实用价值,是当前公式化Alpha生成领域的重要突破。

---

附录


  • 各算法伪代码详细描述了Alpha池维护过程和联合MCTS及风险策略训练流程。

- 运算符与操作数表确保挖掘空间准确限定于股票常用价格、卷积及统计类操作,保障计算可行性和表达能力的平衡。
  • 理论证明确保了风险寻求策略梯度估计的数学严谨性。


---

溯源标注示例


  • 文中介绍的Reward-Dense MDP奖励设计及策略见[page::2][page::3]。

- MCTS及风险寻求策略训练详见[page::3][page::4][page::5]。
  • 实验设置、基准及评测指标详见[page::5]。

- 主实验结果与回测显示见[page::6][page::7]。
  • 算法伪代码和操作符定义见[page::8][page::9][page::10]。


---

此分析既涵盖文本论述,又详尽解读所有关键图表,确保对RiskMiner报告做出了系统、专业、全面的梳理。

报告