RiskMiner: Discovering Formulaic Alphas via Risk Seeking Monte Carlo Tree Search
创建于 更新于
摘要
本报告提出RiskMiner,一种结合风险偏好蒙特卡洛树搜索的量化因子自动挖掘框架,通过设计奖励密集型马尔可夫决策过程(MDP)和风险偏好策略优化,实现对最佳案例表现的专注优化。该方法利用结构化解空间信息,显著提升因子多样性和协同性,且在CSI300与CSI500等实证数据上优于多种最新基准模型。回测验证其在真实交易环境中具备更佳盈利能力,且消融实验进一步确证了各组件的有效性 [page::0][page::1][page::6][page::7]
速读内容
- RiskMiner 框架设计与创新 [page::0][page::1]

- 将Alpha挖掘建模为奖励密集型MDP,解决传统奖励稀疏带来的学习不稳定问题。
- 采用蒙特卡洛树搜索(MCTS)高效探索离散的反向波兰表达式空间。
- 引入风险偏好策略优化,突出挖掘最佳表现因子,区别于平均表现优化。
- 量化因子构建与Alpha池管理 [page::3]


- 使用反向波兰表示(RPN)编码因子公式,方便MDP状态定义。
- Alpha池采用线性加权合成,权重通过梯度下降优化,负贡献因子逐步剔除。
- 中间状态奖励结合单因子信息系数(IC)与互信息系数(mutIC),鼓励协同且低冗余的因子组合。
- 风险偏好蒙特卡洛树搜索方法详解 [page::4]

- MCTS搜索包含选择、扩展、回滚与反向传播四阶段,结合基于风险偏好的策略进行采样和节点评分。
- 策略网络通过量化分位数优化专注上层奖励分布,提高发现优质局部最优因子的概率。
- 训练方式基于政策梯度方法,定量更新策略参数以最大化上α分位数的累计奖励。
- 实验比较与基准测试 [page::6][page::7]
- 信号指标(IC, ICIR, RankIC)方面,RiskMiner在CSI300、CSI500数据集上均显著优于104个经典公式因子集Alpha101、遗传编程方法及最先进的Alphagen强化学习框架。
- 利用不同量化水平的风险偏好参数调整发现,适中风险偏好(量化水平0.85)最优,过度激进反复陷入局部最优。


- 回测结果显示RiskMiner发现因子在实际交易中表现尤为突出,实现了最大的累计收益率,远超其他传统和机器学习模型。
- 消融实验验证MCTS与风险偏好策略各自贡献显著且协同提升性能,强调方法设计合理性和有效性 [page::7]
- 综合以上,RiskMiner提供了一套系统有效的量化因子挖掘解决方案,兼顾发掘能力与稳定性,且具备实际应用潜力。
深度阅读
风险挖矿 (RiskMiner): 通过风险寻求蒙特卡洛树搜索发现公式化Alpha的深度解析报告
---
1. 元数据与报告概览
标题:RiskMiner: Discovering Formulaic Alphas via Risk Seeking Monte Carlo Tree Search
作者:Tao Ren, Ruihan Zhou, Jinyang Jiang, Jiafeng Liang, Qinghao Wang, Yijie Peng
机构:武汉人工智能研究院,北京大学光华管理学院,香江实验室,哈尔滨工业大学
日期与出处:2024年,作者提交至arXiv(全文11页)
领域与议题:量化投资中的公式化Alpha挖掘,应用蒙特卡洛树搜索(MCTS)与风险寻求策略的强化学习,股票趋势预测
报告核心论点:
该研究针对公式化Alpha挖掘存在的奖励稀疏、离散搜索空间巨大以及忽视Alpha集合间相关性限制挖掘性能等问题,提出了一个新颖的框架RiskMiner。该框架将Alpha挖掘建模为奖励稠密的马尔可夫决策过程(MDP),并采用风险寻求蒙特卡洛树搜索方法,同时训练风险偏好策略网络,显著提升了Alpha搜索效率和最终组合预测性能。作者强调相比常规仅关注平均收益,风险寻求政策能更好聚焦于最优表现,从而带来更实用的盈利信号。通过在中国A股CSI300和CSI500两套真实数据集上的实验,RiskMiner全面超越包括当前最先进的Alphagen在内的各类基准方法,且在实盘模拟交易中实现更优的累计回报表现。
---
2. 逐节深度解读
2.1 引言(Introduction)
关键论点:
- 介绍了两种Alpha类型:公式化Alpha和机器学习Alpha,明确公式化Alpha因其解释性和可与机器学习模型结合而实用。
- 指出传统Alpha自动生成方法大多基于遗传编程(GP),以及最新的Alphagen采用强化学习中的PPO算法,将Alpha挖掘构建为MDP。
- 识别当前方法的三大核心挑战:MDP奖励稀疏导致的学习非平稳,PPO难以有效利用离散的公式搜索空间结构,并且忽略了Alpha集合间的相关性,且只关注平均表现。
- 提出本研究的RiskMiner框架,通过设计奖励稠密MDP、引入蒙特卡洛树搜索和风险寻求策略,以系统方式提升Alpha挖掘效率和效果。
逻辑分析:
- 奖励稀疏的MDP严重降低学习收敛速度和稳定性,因此将Alpha挖掘转为奖励稠密的MDP,增加中间反馈非常关键。
- 离散的Alpha表达空间庞大且结构化,PPO等神经网络探索不足,MCTS的树形搜索结构天然适合捕捉此结构信息。
- Alpha的组合表现受组成成员关联性影响,若Alpha高度相关,信息重叠导致组合表现受限,故挖掘“优秀且差异化”的Alpha集合更有价值。
- 针对Alpha挖掘强调最优策略的特点,风险寻求策略能够专注于最大化最佳回报而非期望表现,这对发掘极佳Alpha尤为重要。
---
2.2 相关工作(Related work)
核心内容:
- 回顾现有的公式化Alpha挖掘方法,尤其基于遗传编程的多项改进,以及使用强化学习的Alphagen框架。
- 指出现有强化学习方法奖励稀疏导致的非稳定学习问题,以及无法充分利用结构信息的缺陷。
- 总结机器学习模型(如Transformer、DFT、扩散模型等)在股票趋势预测中的应用,但强调其对高质量公式化Alpha特征仍有强依赖。
- 介绍利用文本信息(新闻、LLMs)辅助预测的研究,但与本报告重点的公式化Alpha不同。
---
2.3 问题定义与基础概念
公式化Alpha定义
- 以函数$f(\cdot)$表示的数学表达式,将股票价格等原始数据$Xt$映射为Alpha信号$zt=f(Xt)$。
- 评估指标为IC(信息系数),即Alpha与未来收益的Pearson相关系数,及其秩版本RankIC。IC统一范围在[-1,1],越接近±1表示预测能力越强。
- 引入mutIC用以测量不同Alpha间的相关性,mutIC越高表示信息重叠越大。
Alpha组合挖掘
- 构建Alpha池$\mathcal{F}=\{f1, f2,..., fk\}$,通过线性加权模型$c(\cdot|\mathcal{F},\omega)$合成组合Alpha信号$zt$。
- 目标不仅挖掘高IC的单一Alpha,更要通过降低Alpha间mutIC,提升组合Alpha的整体预测能力,实现协同增效。
- 寻找“优秀且互补”的Alpha集合是研究的难点。
表达方式
- 使用逆波兰表达式(RPN)表示Alpha公式,方便构建搜索空间和MDP状态,RPN为表达式二叉树的后序遍历序列(图3示例)。
---
2.4 方法论(Methodology)
Alpha池管理(4.1节)
- 使用线性加权模型合成Alpha池内的多Alpha,利用均方误差损失拟合未来收益,并通过梯度下降优化权重$\omega$。
- 采用逐步增量更新方式加入新Alpha,池内Alpha数量达到上限时删除权重绝对值最小的Alpha。
- 该机制保证Alpha池结构简单且高效,便于解释和迭代。
奖励稠密MDP设计(4.2节)
- 构造状态$st$为当前选择的Tokens序列,动作$at$为下一个Token选择,序列起止为BEG和END Tokens。
- 设计中间状态奖励,当序列为合法但尚未结束时,计算该Alpha的IC与其对Alpha池内所有Alpha的mutIC,结合超参数$\lambda=0.1$,定义中间奖励:
$${\mathrm{Reward}}{\mathrm{inter}}={\mathrm{IC}} - \lambda \frac{1}{k}\sum{i=1}^k {\mathrm{mutIC}}i$$
- 终止奖励为Alpha加入池后综合Alpha的IC,长度最大30。
- 奖励稠密策略提供了比传统奖励稀疏环境更稳定、丰富的训练信号,促进学习收敛。
风险基蒙特卡洛树搜索(4.3节)
- 利用四阶段搜索循环(选择、扩展、模拟、回溯)探索庞大搜索空间,结合策略网络给出动作概率。
- 采用PUCT策略(结合边的价值$Q(s,a)$与概率$P(s,a)$调整探索权重)指导选择动作:
$$at = \arg\maxa Q(s,a) + P(s,a) \frac{\sqrt{\sum_b N(s,b)}}{1+N(s,a)}$$
- 策略网络作为树策略与Rollout策略使用,能够辅助搜索更快发现高价值节点。
- 回溯步骤中,利用折扣因子$\gamma=1$(完全重视未来奖励),递归更新边的价值和访问次数。
- 通过采样得到的完整轨迹存入经验缓冲区,为风险寻求策略优化提供数据支撑。
风险寻求策略优化(4.4节)
- 传统RL目标最大化预期累积奖励,缺乏关注尾部(极端)收益能力。Alpha挖掘更需要优化“最优情况”表现。
- 采用基于分位数的优化方法,关注累积奖励分布上分位数$q(\theta;1-\alpha)$的最大化,典型$\alpha$取值小于1,如0.6至0.95。
- 采用迭代数值方法估计分位数,结合策略梯度推导(Theorem 4.1),实现基于上分位数的风险收益梯度更新。
- 使策略网络偏向发现并采样高回报轨迹,符合Alpha挖掘对潜在收益峰值的重视。
训练流程(4.5节)
- MCTS和风险寻求策略训练交替执行,MCTS采样生成轨迹,策略网络训练后在下一轮作为搜索引导。
- 策略网络由GRU特征提取层和多层感知器构成,适合处理Token序列的时序依赖。
- 整体流程算法伪代码详见附录。
---
3. 图表深度解读
3.1 图1:算法框架图(Page 1)

描述:
展示了RiskMiner的整体算法结构。左侧,通过MCTS对MDP进行采样,生成轨迹;右侧,基于采样结果训练风险寻求策略网络;该策略网络再反哺MCTS,用于选择和Rollout。中间框是Alpha评估器,负责计算奖励信号。
解读:
- 该框架实现MCTS与策略训练的高效闭环,强化了搜索引导能力。
- 奖励稠密MDP设计使训练信号更加丰富,实现高效信息反馈。
- 风险寻求策略让搜索重点偏向最佳表现,跳出平均最优陷阱。
---
3.2 图2:逆波兰表达式示意(Page 3)

描述:
以表达式$Add(Std(\$close,10),\$open)$为例,左上展示了表达式树结构,右下展示对应的RPN序列(BEG → \$close → 10 → Std → \$open → Add → END)。
解读:
- 逆波兰符号作为状态空间的Token序列,为MDP状态转移与搜索空间离散化奠定基础。
- 该表示简洁明了,方便蒙特卡洛树搜索操作和策略网络的序列处理。
---
3.3 图3:奖励稠密MDP设计示意(Page 3)

描述:
图示展示部分Alpha公式对应的Token序列及奖励分配:对于未结束的合法序列,简称中间奖励IC-λmutIC;终止序列则给予复合Alpha的总体IC综合奖励。
解读:
- 设计中间状态奖励能缓解奖励稀疏导致训练不稳定的问题。
- 结合个体Alpha表现和其对Alpha池的独特性指标mutIC,体现了“优秀且差异化”的挖掘目标。
---
3.4 图4:蒙特卡洛树搜索单轮流程(Page 4)

描述:
清晰展示MCTS单轮工作流程:选择→扩展→模拟→回溯。示意树结构中各Token及动作选择过程,附带选择公式和奖励回传示意。
解读:
- 该流程保障搜索既依赖价值估计又保留探索的平衡。
- 通过rollout与风险策略结合,提高叶节点价值评估精度。
- 经验轨迹存储为后续策略训练提供丰富样本。
---
3.5 图5:不同风险寻求量化因子$\alpha$下模型表现(Page 6)

描述:
两图分别展示CSI300和CSI500数据集的5天和10天收益预测任务下,不同$\alpha$值时IC指标的变化趋势。
解读:
- IC随$\alpha$上升而提高,说明风险寻求策略有效聚焦高分位数回报轨迹。
- 但超过0.85后IC开始下降,表明过度追求高风险会导致过拟合当前最优局部极值,阻碍更广泛的探索。
- 说明风险分位调节在挖掘过程中的重要性,需平衡探索与利用。
---
3.6 图6:CSI300回测收益率曲线(Page 7)

描述:
展示報告期内,采用不同Alpha生成方法驱动的策略累计收益表现。RiskMiner曲线最高,明显优于第二名Alphagen及各机器学习模型。市值加权指数CSI300作为基准表现最低。
解读:
- 在熊市背景下(2021-2022),RiskMiner仍表现强劲,显示稳健的Alpha信号强预测能力和实用价值。
- 强调了策略挖掘中既要高度预测准确又要稳定的必要性。
- 直接验证了风险寻求MCTS方法对实际交易绩效的提升。
---
3.7 表1:主流模型在CSI300和CSI500上的信号指标对比(Page 6)
描述:
列示多次实验平均及标准差的IC、ICIR、RankIC指标,涵盖RiskMiner、Alphagen、遗传编程、Alpha101,以及多种机器学习模型。
解读:
- RiskMiner在所有指标上均领先,尤其是ICIR表明其预测能力最稳定。
- Alphagen虽IC及RankIC表现接近,但ICIR(指标波动率倒数)较低,说明不如RiskMiner稳定。
- 传统GP方法及Alpha101表现显著退步,验证了时间演进中经典Alpha的陈旧性。
- End-to-end机器学习模型表现一般,凸显基于公式Alpha提取更优结构性特征的重要性。
---
3.8 表2:CSI300上的消融实验(Page 7)
描述:
评估单独应用MCTS或风险寻求策略与二者结合的效果差异,指标为累计收益。
解读:
- 单用MCTS或单用风险策略均不及二者结合,说明两部分模块相辅相成。
- MCTS单独表现优于风险策略,但后者明显提升整体水平,证明风险寻求激励对搜索效率和结果质量的贡献。
---
4. 估值与实验分析
本报告无传统意义上的估值分析,但通过信号指标(IC/RankIC)及实证交易回测,综合展现框架挖掘的Alpha的价值。
- 信号指标:IC、RankIC作为预测能力的行业标准评测指标,用以衡量Alpha对未来收益的相关性;ICIR则度量其稳定性。
- 实证回测:基于Alpha信号的多头股票选股策略,采用周度调仓,评估累计收益,全面体现Alpha实际交易中的盈利效果。
---
5. 风险因素评估
论文未专门列出系统风险,但以下可解读为潜在风险因素:
- 风险寻求参数$\alpha$选择风险:若$\alpha$选取过大,模型易陷入局部最优,搜寻空间被过度利用导致性能下降。
- 模型过拟合:由于采用历史数据训练,风险在于回测优异且推广不足。
- 市场环境变化:模型在熊市、牛市环境下表现可能差异,特别在极端条件下作用有限。
- 计算资源和时间成本:MCTS结合风险寻求策略的训练可能成本较高。
风险缓解未明确披露,但通过参数调优、交叉验证及长期回测来保证模型的稳健性和泛化能力。
---
6. 审慎视角与细节
- 假设合理性:奖励稠密设计假设IC与mutIC计算在所有中间状态能有效评估公式优劣,但部分复杂表达式中计算稳定性待探讨。
- 风险寻求策略的非平衡探索性:过度强调最佳表现虽改善效率,但强化学习中的探索-利用平衡未阐述具体策略,可能导致多样性不足。
- 操作数与操作符设计:严谨的算子与特征选择决定公式搜索空间边界,过宽空间可能导致样本不足问题,过窄则限制创新。
- 不确定性:文中未涉及因子寿命、风险管理等金融实操层面因素,建议后续研究完善。
- 实验对比:机器学习模型基于普通特征未用深度特征工程,或影响其表现。
整体报告方法设计合理,论证严谨,但需后续工作验证在不同市场和时间段的泛化能力。
---
7. 结论性综合
本文系统介绍了RiskMiner,一个创新性的公式化Alpha挖掘框架。其核心贡献包括:
- 设计奖励稠密的MDP,缓解传统稀疏奖励导致的学习不稳定,提供更频繁的反馈信号。
- 结合蒙特卡洛树搜索(MCTS)利用其强大的离散空间探索能力,充分挖掘Alpha表达式结构信息。
- 引入风险寻求策略优化,关注Alpha挖掘的最优表现分位数而非平均收益,使搜索过程更聚焦潜在优质解。
- 制定Alpha池管理机制实现多Alpha协同,提高整体预测效果,保证了Alpha集合的互异性与创新性。
- 通过丰富实验验证,在CSI300和CSI500两大中国A股市场真实数据上,RiskMiner在IC、ICIR、RankIC多指标均显著领先于现有先进方法如Alphagen及传统遗传编程,且在模拟交易中实现最高累积收益(约40%以上),显示出卓越的实际应用潜力。
分析表明,合理调控风险寻求的分位参数是平衡搜索效率和结果质量的关键。模型集成了高级强化学习与搜索策略,为金融领域的公式化Alpha自动发现开启了新视角。未来将结合LLM等文本信息挖掘“情感Alpha”,有望进一步提升挖掘策略的多样性和精准度。
综上所述,RiskMiner不仅理论贡献突出,实验结果也展现了其在量化投资Alpha挖掘上的先进性和实用价值,是当前公式化Alpha生成领域的重要突破。
---
附录
- 各算法伪代码详细描述了Alpha池维护过程和联合MCTS及风险策略训练流程。
- 运算符与操作数表确保挖掘空间准确限定于股票常用价格、卷积及统计类操作,保障计算可行性和表达能力的平衡。
- 理论证明确保了风险寻求策略梯度估计的数学严谨性。
---
溯源标注示例
- 文中介绍的Reward-Dense MDP奖励设计及策略见[page::2][page::3]。
- MCTS及风险寻求策略训练详见[page::3][page::4][page::5]。
- 实验设置、基准及评测指标详见[page::5]。
- 主实验结果与回测显示见[page::6][page::7]。
- 算法伪代码和操作符定义见[page::8][page::9][page::10]。
---
此分析既涵盖文本论述,又详尽解读所有关键图表,确保对RiskMiner报告做出了系统、专业、全面的梳理。