Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining
创建于 更新于
摘要
本文提出了Trajectory-level Reward Shaping (TLRS) 一种用于自动挖掘公式化Alpha因子的强化学习奖励塑形方法。TLRS通过精确的子序列匹配,利用专家设计的因子公式给予中间丰富奖励,显著提高因子预测能力与训练稳定性,Rank IC提升9.29%。此外,引入奖励中心化机制,有效降低训练波动。实证覆盖中美六大股指,验证了TLRS的优越性能和计算效率 [page::0][page::4][page::9].
速读内容
研究背景与问题描述 [page::0][page::1]
- 传统Alpha因子人工设计效率低,且模型多缺乏金融解释性。
- 采用强化学习围绕逆波兰符号(RPN)序列自动挖掘表达式。
- 标准RL面临稀疏延迟奖励问题,训练效率低。
现有奖励塑形面临的挑战 [page::3][page::4]
- 折扣因子小于1导致策略偏好生成过短因子,早终止问题。
- 语法相似不等同语义相似,使距离基奖励塑形不准确。
- 基于距离的相似度指标对符号向量化表达误判风险高。
TLRS算法核心方法 [page::4][page::5]
- 利用专家示范因子子序列,计算当前策略轨迹与示范轨迹精确匹配比例的差异作为塑形奖励。
- 设计奖励中心化机制动态调整平均奖励,提升训练收敛稳定性。
- TLRS计算复杂度从传统欧氏距离的$\mathcal{O}(N\cdot L\cdot d)$降至$\mathcal{O}(N\cdot L)$。

理论保证及实验验证 [page::6][page::7][page::8][page::9]
- 证明当折扣因子设为1时避免模型偏好短轨迹,提升因子表达完整性。
- 保证奖励塑形不会改变最优策略。
- 误差边界分析说明忽略语法一致性对塑形效果影响有限。
- 多市场六指数实测TLRS训练期表现优异,平均Rank IC提升近9.3%。
超参数敏感性及性能对比 [page::10][page::11]
- 增加专家演示数量显著提升性能,最佳选取N=130。
- 奖励中心化学习率$\beta=2e-3$效果最佳。
- TLRS相较AlphaGen、QFR等同类强化学习与启发式算法在收敛速度和稳定性上均表现突出。

因子预测表现对比 [page::11]
| 算法 | CSI300 IC | CSI300 RankIC | CSI500 IC | CSI500 RankIC |
|-----------|------------|--------------|-----------|--------------|
| MLP | 0.0123 | 0.0178 | 0.0158 | 0.0211 |
| XGBoost | 0.0192 | 0.0241 | 0.0173 | 0.0217 |
| LightGBM | 0.0158 | 0.0235 | 0.0112 | 0.0212 |
| GP | 0.0445 | 0.0673 | 0.0557 | 0.0665 |
| AlphaGen | 0.0500 | 0.0540 | 0.0544 | 0.0722 |
| QFR | 0.0588 | 0.0602 | 0.0708 | 0.0674 |
| TLRS | 0.0571 | 0.0582 | 0.0717 | 0.0730 |
- TLRS因子预测能力与顶尖基线相当,突出表现为收敛更快和训练更稳定。
- 组合轨迹级别奖励塑形与奖励中心化机制对性能均有显著提升作用。
核心贡献及未来方向 [page::12]
- 创新提出基于精确子序列匹配的轨迹级奖励塑形方法。
- 设计奖励中心化降低训练波动,提升稳定性。
- 实证覆盖中美主流股指,效果优异。
- 未来探索结合大语言模型挖掘跨股票因子关联。
深度阅读
金融研究报告详尽分析—《Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining》
---
1. 元数据与概览
- 报告标题: Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining
- 作者: Junjie Zhao, Chengxi Zhang, Chenkai Wang, Peng Yang(IEEE高级会员)
- 发布时间点: 结合文中2024、2025年发表的参考文献判断,报告近年完成,最后引用来自2024年。
- 研究领域: 结合强化学习(RL)与金融量化投资领域,专注于公式化alpha因子的发现和挖掘。
- 主题核心: 提出了一种新颖的轨迹级别奖励塑形方法(Trajectory-level Reward Shaping,简称TLRS),用于解决强化学习中稀疏回报导致探索效率低和训练不稳定的问题,应用于自动化挖掘具有金融解释力和预测力的公式化alpha因子。
- 核心贡献与结论:
TLRS方法通过对部分生成表达式与专家设计公式的子序列级相似性进行匹配,提供稠密的中间回报信号,克服传统奖励塑形方法中折扣因子、语义与语法不匹配、距离度量不准确三个关键缺陷,实现了训练过程的加速与稳定; 在六个中美主要指数的实验中,TLRS相较于现有基于潜力函数的奖励塑形算法将预测能力(以Rank IC衡量)提升约9.29%,并将计算复杂度由与特征维度线性相关降低为常数级,显著提高了效率。[page::0,1,9]
---
2. 逐节深度解读
I. 引言
- 关键论点:
量化投资策略依赖从大量含噪的历史市场数据挖掘信息型信号,尤其是“alpha因子”——可解释的数学公式化表达式。早期alpha因子多由金融专家手工设计,展现高解释性,但设计效率低且主观性强。为提高效率,先前基于遗传编程(GP)的启发式符号搜索、后续基于强化学习(RL)的方法被提出,后者将因子挖掘建模为马尔科夫决策过程(MDP),以信息系数(IC)作为唯一轨迹级回报信号。
然而,由于回报稀疏且延迟,仅在生成完整表达式后才能得到反馈,训练效率和搜索质量受限,算法不稳定。
- 作者提出问题: 如何借助专家设计的已有公式提高RL策略的训练效率,同时实现有效的奖励塑形?[page::0]
II. 背景与问题定义
- Alpha因子定义: 输入为股票的多维时间序列特征(如开盘价、收盘价等),输出为一组数值 alpha,代表预测未来资产回报的信号。多个alpha因子组合用于线性资产预测权重,优化可通过最小化均方误差实现(公式(1))。
- 公式化alpha因子的表达: 采用逆波兰表示法(RPN)序列表示数学公式,包含跨时间截面操作符、时间序列操作符、价格/成交量特征和常量,其中每个操作符和特征通过Token编码(详见表1)。每个公式的解析树与RPN序列相互等价(图1示例)。
- 强化学习模型: 构建MDP,状态为当前已生成的Token序列,动作为空间中选择下一个Token,策略基于神经网络,从初始“BEG”令牌开始生成公式,直至选到“SEP”令牌或达到最长长度。
- 奖励设计与挑战: 固有轨迹级回报(奖励赋予完整公式),中间步骤无反馈,导致训练初期学习速度极慢,强化学习难以高效收敛(基于AlphaGen和QFR等文献)。[page::1,2,3]
III. RSfD方法存在的主要问题
- 折扣因子非1导致“提前终止”偏向短公式: 折扣因子$\gamma<1$,模型可能偏好更短的表达式以获取更高折扣奖励,导致表达不足和学习停滞。
- 状态间表征失衡和语义歧义问题: 简单基于RPN语法结构的相似度度量忽略表面结构背后的金融语义,如语法差异表达语义等价,或语法相似表达不同语义。
- 基于距离的相似度计算不精准: Token仅用数字索引近似,造成“open”和“close”等经济含义差异大但距离接近,陷入噪声反馈,训练不稳定。
- 三个因素综合导致Reward Shaping from Demonstrations (RSfD)难以有效指导符号表达式生成过程。[page::4]
IV. TLRS方法详细介绍
- 核心创新:
TLRS设计了一种基于准确子序列匹配比率的轨迹级奖励塑形机制,即通过比较当前生成部分Token序列与专家公式集合中同长度子序列的匹配比例,计算潜力函数$\Phi(st) = \frac{n{1,t}}{Nt}$,其中$n{1,t}$为完全匹配个数,$Nt$为总子序列数。
共享形式为$ ft = \Phi(s{t+1}) - \Phi(st)$,本质上为基于子序列匹配差分的奖励增量,提供稠密中间信号,引导策略逐步趋近专家生成策略。
- 与传统PBRS的异同: 虽同属基于潜力函数的奖励塑形,但TLRS潜力函数通过子序列精确匹配计数定义,更符号结构属性且避免距离依赖导致的语义错判。
- 奖励居中机制(Reward Centering): 提出动态估计平均奖励并对即时奖励做均值调整,消除训练中奖励方差过大导致的不稳定性,促使值函数逼近差分价值函数,提高优化稳定性和速度。
- 理论保证:
- 折扣因子$\gamma=1$时无提前终止短公式偏好(命题1);
- 奖励塑形不改变最优策略的政策不变性(命题2);
- 公式语义与语法不完全一致时引入误差有界且能随着Token库和序列长度扩展逐渐减小(命题3);
- 奖励居中可视为价值函数的偏移,消除训练中的常数项,保证收敛性能(命题4)。
- 算法框架及流程: 图2示意了Stock数据获取,策略采样生成表达式,子序列匹配奖励计算,奖励居中,梯度更新的全流程。算法1列出了训练伪代码。[page::4,5,6,7,8]
---
3. 图表深度解读
图1:公式化alpha因子的三种等价表示形式
- 展示一个公式(如Div(5, Cov(open, volume, 15d)))在公式表达、树结构和逆波兰表示法三个视角的示例,凸显RPN序列表达的编码优势及其易于构建MDP状态的特点。[page::2]
表1:TLRS中使用的Token列表详解
- Token分类有跨截面操作符、时间序列操作符、时间跨度、价格特征、成交量特征、常量等,展示了符号空间的广度及细致设计,确保RL策略在强语义和符号支持下生成有效表达式。[page::2]
表2:Alpha101经典因子示例及其RPN表示
- 展示4个Alpha101中具代表性的公式,强调本方法在表达复杂金融逻辑时兼容度极强和可解读性。[page::3]
图2:TLRS详细算法流程示意图
- 直观表示从股价数据输入,经RL策略生成表达式序列,中间通过子序列匹配计算奖励差分,结合奖励居中机制,最终优化策略模型和因子组合权重,突出方法模块化和结构清晰。[page::5]
图3:六大指数奖励塑形算法训练期表现对比(Rank IC)
- 以计算时间(秒千计)为横轴,Rank IC为纵轴,展示NS(无塑形)、PBRS、DPBA、TLRS及其两个变体的训练曲线。
- TLRS明显明显收敛更快、波动更小、最终Rank IC最高(除CSI500指标外),相较传统距离基法提升幅度显著9.29%。
- 尤其表现出计算复杂度优势,由线性复杂度降为常数级,具体表现为更快达到高等级因子预测能力,加快投资决策迭代周期。[page::9,10]
图4:折扣因子$\gamma$对模型性能的影响(CSI300)
- 实验证明$\gamma=1$时,TLRS及基线算法表现最佳,确认了理论中提前终止行为对策略学习的负面影响。低于1的折扣因子,模型偏向短期回报,抑制了复杂因子的发现。[page::11]
图5:专家示范数量$N$与奖励居中学习率$\beta$的超参数敏感性分析(CSI300)
- 随专家示范数据库规模增长,模型性能(Rank IC/IC)稳步改善,达到$N=130$最佳后基本饱和。奖励居中参数$\beta$存在最优区间($2e-3$),过大或过小皆影响估计稳定性。[page::11]
---
4. 估值分析(论文中非传统企业估值,但算法性能评估对应“因子预测力”指标)
论文未涉及财务指标估值,但通过以下性能指标全面评估挖掘算法表现:
- 信息系数(IC)与秩信息系数(Rank IC):
衡量因子预测准确度的经典金融指标,表示因子值与真实资产收益的相关性,均匀分布在训练/验证/测试期间,越高表示预测越准、投资信号越强。
- 收敛速度与稳定性指标: 计算时间内达到高Rank IC值的能力及训练曲线波动范围。
通过这些指标,TLRS取得了综合竞争优势,符合自动化alpha因子挖掘对预测精度与效率的双重要求。[page::9,10,11]
---
5. 风险因素评估
- 语义与语法不完美匹配带来的奖励误差: 作者证明误差有界且在实际Token集和序列长度下趋于可忽略,保证方法可靠性(命题3)。
- 提前结束问题: 折扣因子设定错误将导致学习偏差,促使策略选择短表达式,降低搜索效果。规避方法为将$\gamma$严格设为1。
- 奖励波动带来的训练不稳定性: 通过奖励居中机制动态调整,降低幸运性波动,增强训练稳定性。
- 符号空间维度与专家示范覆盖度: 专家演示数量不足将限制匹配奖励信号的丰富度,影响训练引导效果。对策为丰富专业示范库。
- 算法对特征集限制敏感: 仅使用有限几个基础价格体积因子可能限制整体因子建设潜力,算法效用可能受限于数据本身信息含量。[page::4,10,11]
---
6. 批判性视角与细微差别
- 优势:
- 将稀疏轨迹奖励细化为子序列匹配奖励,理论合理,计算效率大幅提升。
- 奖励居中机制财富训练稳定性,解决了以往潜力函数奖励震荡大的问题。
- 严谨的理论证明和充分实验验证匹配,科学性强。
- 局限及风险:
- 语义一致但语法不同的因子匹配存在误差,虽理论上误差受控,但具体金融意义和极端边界情况未深入探讨。
- 专家因子依赖于现存Alpha101及类似数据库,可能存在知识盲区,对新兴市场/高维特征的适应能力未充分体现。
- 虽训练速度快,最终预测性能与高度优化的QFR等算法持平,表明提升空间或受限于输入特征。
- 规则设计较为机械,未来可进一步结合符号表达的语义学习进行匹配,以增强泛化能力。
- 报告中未详细论述多因子组合的权重优化策略复杂性及市场风险控制,略显单一。[page::7,11]
---
7. 结论性综合
本报告提出的轨迹级奖励塑形(TLRS)方法创新性地结合了专家设计的alpha因子的符号结构知识,将强化学习中的稀疏延迟奖励转化为基于部分序列与专家库匹配的密集奖励信号,有效指导符号公式的生成过程。核心改进包含:
- 基于公式子序列准确匹配的潜力函数设计,突破传统基于距离的语义混淆和结构不一致限制,赋予训练更精准的行为反馈;
- 动态奖励居中机制,消除训练过程中的高方差漂移,提升收敛速度和稳定性;
- 折扣因子调节为1,避免了生成长度偏短的策略陷阱。
实验部分覆盖中美六大主要股票指数,评估了与主流奖励塑形方法(PBRS、DPBA)、非塑形强化学习(NS)及多种传统机器学习方法(XGBoost、LightGBM、MLP、遗传编程等)的对比,展现TLRS在训练效率和预测能力上的显著优势。具体表现为:
- 训练期Rank IC平均提升9.29%,显著改善样本效率;
- 计算时间复杂度从线性降为常数级,极大节省计算资源;
- 在超参数灵敏度测试中表现稳健,专家因子数量和奖励居中率均影响性能;
- Ablation study证明奖励塑形和奖励居中均为性能提升不可缺少的关键组成。
尽管理论和实验均表明该方法较传统算法优势明显,但最终因子预测力在与最佳基线相当水平,整体提升受限于输入特征信息量。未来工作可从引入大语言模型、语义嵌入改进子序列匹配、加强多因子组合动态权重优化以及扩展到更丰富金融因子空间等方向展开,以进一步提升算法性能和应用价值。
---
重要图表索引:
- 图1: 公式表达—树结构—RPN表达的等价示例。[page::2]

- 图2: TLRS算法框架流程图,系统演示RL策略与奖励塑形交互结构。[page::5]

- 图3: 六指数市场训练期Rank IC对比曲线,标明TLRS显著优于其他奖励塑形方案。[page::10]

- 图4: 变折扣因子$\gamma$时CSI300区间训练表现,$\gamma=1$最佳印证理论推导。[page::11]

- 图5: 专家样本数与奖励居中率$\beta$超参敏感度分析,指导最佳参数选取。[page::11]

---
综上所述,本报告不仅系统剖析了强化学习在金融alpha因子挖掘中的核心难点,更提出了精准高效的解决方案TLRS,以稠密轨迹级奖励信号改善训练效率与因子解释力。该研究为未来自动化、可解释的量化投资因子挖掘提供了重要理论基础和实践路径。
[page::0,1,2,3,4,5,6,7,8,9,10,11]