RiskMiner: Discovering Formulaic Alphas via Risk Seeking Monte Carlo Tree Search

创建于 2025-05-12T15:52:02.837412+08:00 更新于 2025-05-21T11:12:27.830078+08:00

摘要

本报告提出RiskMiner，一种结合风险偏好蒙特卡洛树搜索的量化因子自动挖掘框架，通过设计奖励密集型马尔可夫决策过程（MDP）和风险偏好策略优化，实现对最佳案例表现的专注优化。该方法利用结构化解空间信息，显著提升因子多样性和协同性，且在CSI300与CSI500等实证数据上优于多种最新基准模型。回测验证其在真实交易环境中具备更佳盈利能力，且消融实验进一步确证了各组件的有效性 [page::0][page::1][page::6][page::7]

速读内容

RiskMiner 框架设计与创新 [page::0][page::1]

- 将Alpha挖掘建模为奖励密集型MDP，解决传统奖励稀疏带来的学习不稳定问题。
- 采用蒙特卡洛树搜索（MCTS）高效探索离散的反向波兰表达式空间。
- 引入风险偏好策略优化，突出挖掘最佳表现因子，区别于平均表现优化。

量化因子构建与Alpha池管理 [page::3]

- 使用反向波兰表示（RPN）编码因子公式，方便MDP状态定义。
- Alpha池采用线性加权合成，权重通过梯度下降优化，负贡献因子逐步剔除。
- 中间状态奖励结合单因子信息系数(IC)与互信息系数(mutIC)，鼓励协同且低冗余的因子组合。

风险偏好蒙特卡洛树搜索方法详解 [page::4]

- MCTS搜索包含选择、扩展、回滚与反向传播四阶段，结合基于风险偏好的策略进行采样和节点评分。
- 策略网络通过量化分位数优化专注上层奖励分布，提高发现优质局部最优因子的概率。
- 训练方式基于政策梯度方法，定量更新策略参数以最大化上α分位数的累计奖励。

实验比较与基准测试 [page::6][page::7]

- 信号指标(IC, ICIR, RankIC)方面，RiskMiner在CSI300、CSI500数据集上均显著优于104个经典公式因子集Alpha101、遗传编程方法及最先进的Alphagen强化学习框架。
- 利用不同量化水平的风险偏好参数调整发现，适中风险偏好(量化水平0.85)最优，过度激进反复陷入局部最优。

回测结果显示RiskMiner发现因子在实际交易中表现尤为突出，实现了最大的累计收益率，远超其他传统和机器学习模型。

- 消融实验验证MCTS与风险偏好策略各自贡献显著且协同提升性能，强调方法设计合理性和有效性 [page::7]

综合以上，RiskMiner提供了一套系统有效的量化因子挖掘解决方案，兼顾发掘能力与稳定性，且具备实际应用潜力。

深度阅读

风险挖矿 (RiskMiner): 通过风险寻求蒙特卡洛树搜索发现公式化Alpha的深度解析报告

---

1. 元数据与报告概览

标题：RiskMiner: Discovering Formulaic Alphas via Risk Seeking Monte Carlo Tree Search
作者：Tao Ren, Ruihan Zhou, Jinyang Jiang, Jiafeng Liang, Qinghao Wang, Yijie Peng
机构：武汉人工智能研究院，北京大学光华管理学院，香江实验室，哈尔滨工业大学
日期与出处：2024年，作者提交至arXiv（全文11页）
领域与议题：量化投资中的公式化Alpha挖掘，应用蒙特卡洛树搜索（MCTS）与风险寻求策略的强化学习，股票趋势预测

报告核心论点：
该研究针对公式化Alpha挖掘存在的奖励稀疏、离散搜索空间巨大以及忽视Alpha集合间相关性限制挖掘性能等问题，提出了一个新颖的框架RiskMiner。该框架将Alpha挖掘建模为奖励稠密的马尔可夫决策过程（MDP），并采用风险寻求蒙特卡洛树搜索方法，同时训练风险偏好策略网络，显著提升了Alpha搜索效率和最终组合预测性能。作者强调相比常规仅关注平均收益，风险寻求政策能更好聚焦于最优表现，从而带来更实用的盈利信号。通过在中国A股CSI300和CSI500两套真实数据集上的实验，RiskMiner全面超越包括当前最先进的Alphagen在内的各类基准方法，且在实盘模拟交易中实现更优的累计回报表现。

---

2. 逐节深度解读

2.1 引言（Introduction）

关键论点：

介绍了两种Alpha类型：公式化Alpha和机器学习Alpha，明确公式化Alpha因其解释性和可与机器学习模型结合而实用。

- 指出传统Alpha自动生成方法大多基于遗传编程(GP)，以及最新的Alphagen采用强化学习中的PPO算法，将Alpha挖掘构建为MDP。

识别当前方法的三大核心挑战：MDP奖励稀疏导致的学习非平稳，PPO难以有效利用离散的公式搜索空间结构，并且忽略了Alpha集合间的相关性，且只关注平均表现。

- 提出本研究的RiskMiner框架，通过设计奖励稠密MDP、引入蒙特卡洛树搜索和风险寻求策略，以系统方式提升Alpha挖掘效率和效果。

逻辑分析：

奖励稀疏的MDP严重降低学习收敛速度和稳定性，因此将Alpha挖掘转为奖励稠密的MDP，增加中间反馈非常关键。

- 离散的Alpha表达空间庞大且结构化，PPO等神经网络探索不足，MCTS的树形搜索结构天然适合捕捉此结构信息。

Alpha的组合表现受组成成员关联性影响，若Alpha高度相关，信息重叠导致组合表现受限，故挖掘“优秀且差异化”的Alpha集合更有价值。

- 针对Alpha挖掘强调最优策略的特点，风险寻求策略能够专注于最大化最佳回报而非期望表现，这对发掘极佳Alpha尤为重要。

---

2.2 相关工作（Related work）

核心内容：

回顾现有的公式化Alpha挖掘方法，尤其基于遗传编程的多项改进，以及使用强化学习的Alphagen框架。

- 指出现有强化学习方法奖励稀疏导致的非稳定学习问题，以及无法充分利用结构信息的缺陷。

总结机器学习模型（如Transformer、DFT、扩散模型等）在股票趋势预测中的应用，但强调其对高质量公式化Alpha特征仍有强依赖。

- 介绍利用文本信息（新闻、LLMs）辅助预测的研究，但与本报告重点的公式化Alpha不同。

---

2.3 问题定义与基础概念

公式化Alpha定义

以函数$f(\cdot)$表示的数学表达式，将股票价格等原始数据$Xt$映射为Alpha信号$zt=f(Xt)$。

- 评估指标为IC（信息系数），即Alpha与未来收益的Pearson相关系数，及其秩版本RankIC。IC统一范围在[-1,1]，越接近±1表示预测能力越强。
引入mutIC用以测量不同Alpha间的相关性，mutIC越高表示信息重叠越大。

Alpha组合挖掘

构建Alpha池$\mathcal{F}=\{f1, f2,..., fk\}$，通过线性加权模型$c(\cdot|\mathcal{F},\omega)$合成组合Alpha信号$zt$。

- 目标不仅挖掘高IC的单一Alpha，更要通过降低Alpha间mutIC，提升组合Alpha的整体预测能力，实现协同增效。
寻找“优秀且互补”的Alpha集合是研究的难点。

表达方式

使用逆波兰表达式（RPN）表示Alpha公式，方便构建搜索空间和MDP状态，RPN为表达式二叉树的后序遍历序列（图3示例）。

---

2.4 方法论（Methodology）

Alpha池管理（4.1节）

使用线性加权模型合成Alpha池内的多Alpha，利用均方误差损失拟合未来收益，并通过梯度下降优化权重$\omega$。

- 采用逐步增量更新方式加入新Alpha，池内Alpha数量达到上限时删除权重绝对值最小的Alpha。
该机制保证Alpha池结构简单且高效，便于解释和迭代。

奖励稠密MDP设计（4.2节）

构造状态$st$为当前选择的Tokens序列，动作$at$为下一个Token选择，序列起止为BEG和END Tokens。

- 设计中间状态奖励，当序列为合法但尚未结束时，计算该Alpha的IC与其对Alpha池内所有Alpha的mutIC，结合超参数$\lambda=0.1$，定义中间奖励：
$${\mathrm{Reward}}{\mathrm{inter}}={\mathrm{IC}} - \lambda \frac{1}{k}\sum{i=1}^k {\mathrm{mutIC}}i$$

终止奖励为Alpha加入池后综合Alpha的IC，长度最大30。

- 奖励稠密策略提供了比传统奖励稀疏环境更稳定、丰富的训练信号，促进学习收敛。

风险基蒙特卡洛树搜索（4.3节）

利用四阶段搜索循环（选择、扩展、模拟、回溯）探索庞大搜索空间，结合策略网络给出动作概率。

- 采用PUCT策略（结合边的价值$Q(s,a)$与概率$P(s,a)$调整探索权重）指导选择动作：
$$at = \arg\maxa Q(s,a) + P(s,a) \frac{\sqrt{\sum_b N(s,b)}}{1+N(s,a)}$$

策略网络作为树策略与Rollout策略使用，能够辅助搜索更快发现高价值节点。

- 回溯步骤中，利用折扣因子$\gamma=1$（完全重视未来奖励），递归更新边的价值和访问次数。

通过采样得到的完整轨迹存入经验缓冲区，为风险寻求策略优化提供数据支撑。

风险寻求策略优化（4.4节）

传统RL目标最大化预期累积奖励，缺乏关注尾部（极端）收益能力。Alpha挖掘更需要优化“最优情况”表现。

- 采用基于分位数的优化方法，关注累积奖励分布上分位数$q(\theta;1-\alpha)$的最大化，典型$\alpha$取值小于1，如0.6至0.95。

采用迭代数值方法估计分位数，结合策略梯度推导（Theorem 4.1），实现基于上分位数的风险收益梯度更新。

- 使策略网络偏向发现并采样高回报轨迹，符合Alpha挖掘对潜在收益峰值的重视。

训练流程（4.5节）

MCTS和风险寻求策略训练交替执行，MCTS采样生成轨迹，策略网络训练后在下一轮作为搜索引导。

- 策略网络由GRU特征提取层和多层感知器构成，适合处理Token序列的时序依赖。

整体流程算法伪代码详见附录。

---

3. 图表深度解读

3.1 图1：算法框架图（Page 1）

描述：
展示了RiskMiner的整体算法结构。左侧，通过MCTS对MDP进行采样，生成轨迹；右侧，基于采样结果训练风险寻求策略网络；该策略网络再反哺MCTS，用于选择和Rollout。中间框是Alpha评估器，负责计算奖励信号。

解读：

该框架实现MCTS与策略训练的高效闭环，强化了搜索引导能力。

- 奖励稠密MDP设计使训练信号更加丰富，实现高效信息反馈。

风险寻求策略让搜索重点偏向最佳表现，跳出平均最优陷阱。

---

3.2 图2：逆波兰表达式示意（Page 3）

描述：
以表达式$Add(Std(\$close,10),\$open)$为例，左上展示了表达式树结构，右下展示对应的RPN序列（BEG → \$close → 10 → Std → \$open → Add → END）。

解读：

逆波兰符号作为状态空间的Token序列，为MDP状态转移与搜索空间离散化奠定基础。

- 该表示简洁明了，方便蒙特卡洛树搜索操作和策略网络的序列处理。

---

3.3 图3：奖励稠密MDP设计示意（Page 3）

描述：
图示展示部分Alpha公式对应的Token序列及奖励分配：对于未结束的合法序列，简称中间奖励IC-λmutIC；终止序列则给予复合Alpha的总体IC综合奖励。

解读：

设计中间状态奖励能缓解奖励稀疏导致训练不稳定的问题。

- 结合个体Alpha表现和其对Alpha池的独特性指标mutIC，体现了“优秀且差异化”的挖掘目标。

---

3.4 图4：蒙特卡洛树搜索单轮流程（Page 4）

描述：
清晰展示MCTS单轮工作流程：选择→扩展→模拟→回溯。示意树结构中各Token及动作选择过程，附带选择公式和奖励回传示意。

解读：

该流程保障搜索既依赖价值估计又保留探索的平衡。

- 通过rollout与风险策略结合，提高叶节点价值评估精度。

经验轨迹存储为后续策略训练提供丰富样本。

---

3.5 图5：不同风险寻求量化因子$\alpha$下模型表现（Page 6）

描述：
两图分别展示CSI300和CSI500数据集的5天和10天收益预测任务下，不同$\alpha$值时IC指标的变化趋势。

解读：

IC随$\alpha$上升而提高，说明风险寻求策略有效聚焦高分位数回报轨迹。

- 但超过0.85后IC开始下降，表明过度追求高风险会导致过拟合当前最优局部极值，阻碍更广泛的探索。

说明风险分位调节在挖掘过程中的重要性，需平衡探索与利用。

---

3.6 图6：CSI300回测收益率曲线（Page 7）

描述：
展示報告期内，采用不同Alpha生成方法驱动的策略累计收益表现。RiskMiner曲线最高，明显优于第二名Alphagen及各机器学习模型。市值加权指数CSI300作为基准表现最低。

解读：

在熊市背景下（2021-2022），RiskMiner仍表现强劲，显示稳健的Alpha信号强预测能力和实用价值。

- 强调了策略挖掘中既要高度预测准确又要稳定的必要性。

直接验证了风险寻求MCTS方法对实际交易绩效的提升。

---

3.7 表1：主流模型在CSI300和CSI500上的信号指标对比（Page 6）

描述：
列示多次实验平均及标准差的IC、ICIR、RankIC指标，涵盖RiskMiner、Alphagen、遗传编程、Alpha101，以及多种机器学习模型。

解读：

RiskMiner在所有指标上均领先，尤其是ICIR表明其预测能力最稳定。

- Alphagen虽IC及RankIC表现接近，但ICIR（指标波动率倒数）较低，说明不如RiskMiner稳定。

传统GP方法及Alpha101表现显著退步，验证了时间演进中经典Alpha的陈旧性。

- End-to-end机器学习模型表现一般，凸显基于公式Alpha提取更优结构性特征的重要性。

---

3.8 表2：CSI300上的消融实验（Page 7）

描述：
评估单独应用MCTS或风险寻求策略与二者结合的效果差异，指标为累计收益。

解读：

单用MCTS或单用风险策略均不及二者结合，说明两部分模块相辅相成。

- MCTS单独表现优于风险策略，但后者明显提升整体水平，证明风险寻求激励对搜索效率和结果质量的贡献。

---

4. 估值与实验分析

本报告无传统意义上的估值分析，但通过信号指标(IC/RankIC)及实证交易回测，综合展现框架挖掘的Alpha的价值。

信号指标：IC、RankIC作为预测能力的行业标准评测指标，用以衡量Alpha对未来收益的相关性；ICIR则度量其稳定性。

- 实证回测：基于Alpha信号的多头股票选股策略，采用周度调仓，评估累计收益，全面体现Alpha实际交易中的盈利效果。

---

5. 风险因素评估

论文未专门列出系统风险，但以下可解读为潜在风险因素：

风险寻求参数$\alpha$选择风险：若$\alpha$选取过大，模型易陷入局部最优，搜寻空间被过度利用导致性能下降。

- 模型过拟合：由于采用历史数据训练，风险在于回测优异且推广不足。

市场环境变化：模型在熊市、牛市环境下表现可能差异，特别在极端条件下作用有限。

- 计算资源和时间成本：MCTS结合风险寻求策略的训练可能成本较高。

风险缓解未明确披露，但通过参数调优、交叉验证及长期回测来保证模型的稳健性和泛化能力。

---

6. 审慎视角与细节

假设合理性：奖励稠密设计假设IC与mutIC计算在所有中间状态能有效评估公式优劣，但部分复杂表达式中计算稳定性待探讨。

- 风险寻求策略的非平衡探索性：过度强调最佳表现虽改善效率，但强化学习中的探索-利用平衡未阐述具体策略，可能导致多样性不足。

操作数与操作符设计：严谨的算子与特征选择决定公式搜索空间边界，过宽空间可能导致样本不足问题，过窄则限制创新。

- 不确定性：文中未涉及因子寿命、风险管理等金融实操层面因素，建议后续研究完善。

实验对比：机器学习模型基于普通特征未用深度特征工程，或影响其表现。

整体报告方法设计合理，论证严谨，但需后续工作验证在不同市场和时间段的泛化能力。

---

7. 结论性综合

本文系统介绍了RiskMiner，一个创新性的公式化Alpha挖掘框架。其核心贡献包括：

设计奖励稠密的MDP，缓解传统稀疏奖励导致的学习不稳定，提供更频繁的反馈信号。

- 结合蒙特卡洛树搜索（MCTS）利用其强大的离散空间探索能力，充分挖掘Alpha表达式结构信息。

引入风险寻求策略优化，关注Alpha挖掘的最优表现分位数而非平均收益，使搜索过程更聚焦潜在优质解。

- 制定Alpha池管理机制实现多Alpha协同，提高整体预测效果，保证了Alpha集合的互异性与创新性。

通过丰富实验验证，在CSI300和CSI500两大中国A股市场真实数据上，RiskMiner在IC、ICIR、RankIC多指标均显著领先于现有先进方法如Alphagen及传统遗传编程，且在模拟交易中实现最高累积收益（约40%以上），显示出卓越的实际应用潜力。

分析表明，合理调控风险寻求的分位参数是平衡搜索效率和结果质量的关键。模型集成了高级强化学习与搜索策略，为金融领域的公式化Alpha自动发现开启了新视角。未来将结合LLM等文本信息挖掘“情感Alpha”，有望进一步提升挖掘策略的多样性和精准度。

综上所述，RiskMiner不仅理论贡献突出，实验结果也展现了其在量化投资Alpha挖掘上的先进性和实用价值，是当前公式化Alpha生成领域的重要突破。

---

附录

各算法伪代码详细描述了Alpha池维护过程和联合MCTS及风险策略训练流程。

- 运算符与操作数表确保挖掘空间准确限定于股票常用价格、卷积及统计类操作，保障计算可行性和表达能力的平衡。

理论证明确保了风险寻求策略梯度估计的数学严谨性。

---

溯源标注示例

文中介绍的Reward-Dense MDP奖励设计及策略见[page::2][page::3]。

- MCTS及风险寻求策略训练详见[page::3][page::4][page::5]。

实验设置、基准及评测指标详见[page::5]。

- 主实验结果与回测显示见[page::6][page::7]。

算法伪代码和操作符定义见[page::8][page::9][page::10]。

---

此分析既涵盖文本论述，又详尽解读所有关键图表，确保对RiskMiner报告做出了系统、专业、全面的梳理。