`

Alpha掘金系列之十七:即插即用LLM因子挖掘:MMR、RAG与自反馈机制

创建于 更新于

摘要

本报告提出模块化LLM因子挖掘框架,融合MMR相关性控制、RAG启发式改进与反馈机制,验证了89个因子在日频量价数据上的高效性和可解释性。因子通过LightGBM合成,在全A及多个宽基指数(沪深300、中证500、中证1000)上展示显著增强效果,年化多空收益最高达64.23%,且风险控制稳健。策略在指数增强应用中实现稳健超额收益,信息比率均超1.6,体现出LLM因子与传统因子的互补优势及实际投资价值。[page::1][page::6][page::10][page::11][page::12][page::13][page::14][page::15]

速读内容


LLM因子挖掘的必要性与不足 [page::1][page::2]

  • 传统因子挖掘依赖专家经验,效率低且因子覆盖有限。

- 自动化方法如遗传规划提高效率但缺乏可解释性。
  • LLM技术能够自动生成可解释因子,提升透明度及信任。

- 当前面临问题包括因子相关性控制不足,创新与经验难平衡,缺乏多样反馈机制,模型灵活性有限。

即插即用LLM因子挖掘框架设计 [page::3]

  • 采用随机生成因子结合MMR筛选,确保因子表现与低相关性。

- 引入三层改进模块:随机改进、RAG启发(基于Alpha158因子库成熟经验)、反思改进(反馈机制核心)。
  • 模块高度灵活可自由组合,通过循环迭代不断改进因子池。



MMR算法实现因子相关性控制 [page::3][page::4]

  • 利用IC和因子之间的Spearman相关权衡选择因子。

- 迭代纳入高IC且与现存因子低相关的优质因子,构建多样化且稳定的因子池。

RAG启发改进机制 [page::4]

  • 结合检索和生成模型,用成熟因子启发新因子改进,兼具创新性和成功经验。

- 利用faiss向量数据库对因子公式编码存储及匹配,实现针对性优化。


反思改进与反馈机制 [page::5]

  • 通过分析原始与改进因子表达、IC等指标,让大模型深度反思因子表现变化原因。

- 生成简单易懂的优化idea并存储于idea pool,为后续因子改进提供精准参考。


日频量价因子实践及模型选择 [page::6]

  • 使用日频开盘、收盘、成交量等数据,近30个算子组合挖掘因子。

- DeepSeek-R1满血版API表现优异,最终确认89个优质因子入库。
  • 引入MMR模块全程控制因子池相关性。


因子表现及相关性验证 [page::7]



  • 表现优良的因子能与LLM解释对应,单因子年化超额收益显著。

- 计算20个因子两两秩相关,相关度偏高对稀疏,验证MMR的有效性。

因子改进案例展示 [page::8][page::9]

  • 随机改进提升交易信号强度与稳定性。

- RAG启发充分利用成熟经验提升因子逻辑。
  • 反思改进实现噪声过滤、趋势和价量配合等优化。

- 例:成交量均值替换为斜率,更精准捕捉趋势,提高IC及因子稳定性。

LLM因子合成方案与回测 [page::10][page::11]

  • 基于LightGBM合成89个因子,采用Optuna进行超参调优。

- LLM合成因子相较Alpha158提升IC至14.26%,多空年化收益64.23%。
  • 两者相关性仅0.66,等权合成进一步提升表现。




宽基指数增强测试结果 [page::11][page::12][page::13][page::14][page::15]

  • 沪深300、 中证500、 中证1000 测试均显示IC及年化超额收益稳步提升,合成因子表现优异,适用广泛。

- 指数增强策略年化超额收益分别为7.64%、9.97%、12.98%,信息比率均超1.6以上,最大回撤控制在8.83%以内。
  • 各指数增强策略均保持稳定的正向超额收益,年化表现显著优于基准。





风险提示 [page::16]

  • 结果基于历史数据建模,可能受政策及市场环境变化影响。

- 交易成本等因素改变可能导致策略收益出现波动或亏损。

深度阅读

证券研究报告深度分析


《Alpha掘金系列之十七:即插即用LLM因子挖掘:MMR、RAG与自反馈机制》



---

一、元数据与概览(引言与报告概览)


  • 报告标题:《Alpha掘金系列之十七:即插即用LLM因子挖掘:MMR、RAG与自反馈机制》

- 作者:高智威
  • 发布机构:国金证券股份有限公司

- 发布日期:2025年5月25日
  • 报告主题:以大语言模型(LLM)技术为核心,提出一种模块化、即插即用的因子挖掘框架,结合MMR筛选算法、RAG启发机制及反思反馈机制,创新挖掘并优化量价类日频因子,验证该框架在量化投资中的应用效果,合成高效因子组,并基于该因子组应用于指数增强策略。


核心论点:
本报告提出利用大语言模型生成可解释的因子表达式,通过引入MMR(最大边际相关性)算法控制因子间的相关性,结合RAG(检索增强生成)来平衡创新与经验,并融合反馈反思机制进行持续优化,形成完整的因子挖掘闭环。实证部分通过应用于A股市场的日频量价数据,生成的89个LLM因子表现出色,合成后提升了传统Alpha158因子库的表现,显著增强指数投资策略的收益和稳定性。

评级与目标价
报告以研究分享性质为主,未涉及具体股票评级或目标价。更多为量化因子模型及方法论的创新探讨及实证验证。

---

二、逐节深度解读



1. LLM因子挖掘的必要性与不足(章节一)


  • 关键内容与论点:

因子挖掘是量化投资的基础,传统因子依赖专家经验设计,虽然可解释性较强,但范围和效率受限。自动化挖掘(如遗传规划、机器学习框架OpenFE)提升了挖掘效率和广度,但因子可解释性不足,导致实际应用信心不足。大模型(LLM)技术的强大语言生成与推理能力为解决该难题提供了突破口,但现有研究存在四大不足:缺乏因子相关性控制、创新与已有经验平衡不佳、反馈机制单一、模型灵活性不足。
  • 支撑逻辑与假设:

强调传统因子受到知识和时间限制,自动化方法虽能大规模生成因子但“黑盒”特性降低了策略透明度。LLM能生成易于理解的因子表达式,但如何结构化架构解决上述四个不足是核心挑战。
  • 图表分析(图表1和图表2)

图1展示了因子挖掘从传统人工设计、机器学习挖掘到LLM生成的演进路径。图2则聚焦于当前LLM因子挖掘存在的灵活性、相关性控制和反馈机制的不足,并指明改进方向:7×24小时自动运行、相关性控制、融合成熟因子启发、配备动态反馈、即插即用模块化。

2. 即插即用LLM因子挖掘框架(章节二)


  • 关键论点:

设计了一套模块化的LLM因子挖掘框架,流程涵盖因子随机生成、MMR控制筛选、随机改进、RAG启发改进、反思反馈改进,所有模块可灵活组合,实现多轮迭代提升。
  • 具体方法详解:

- 因子随机生成:大量因子初步构建,覆盖广泛。
- MMR层(最大边际相关性)筛选:基于IC(信息系数)与因子间Spearman相关性权衡,控制因子库的表现力和多样性。公式:$MMR(fi) = \lambda \times IC(fi) - (1-\lambda) \times \max{fj \in S} Rel(fi, fj)$,其中$S$为已选因子集合。
- 随机改进层:基于随机策略调整因子。
- RAG启发层:利用faiss向量数据库检索成熟因子库(Alpha158)中与当前因子最相似的因子,结合LLM生成针对性改进。
- 反思改进层:LLM基于因子表现的提升或降低进行反思总结,提取优化idea,储存在idea pool,用于下一轮因子改进。
  • 架构流程图(图3)生动展示了这一闭环流程,侧重控制因子相关性和持续迭代提升。


3. Maximal Marginal Relevance(MMR)机制(章节2.1)


  • 详解:

MMR用于在因子选择中平衡相关性与多样性。
步骤包括:初始选择IC最高的因子,迭代计算剩余因子的MMR值,选择MMR值最高者入库,更新候选集的MMR。
关键指标"IC"衡量因子对未来收益的预测能力,“Rel”测量因子间相关性。
通过调节λ权重,可调整相关性与因子表现的权衡。

4. 现有因子库RAG启发提升(章节2.2)


  • 基本原理:

RAG结合检索(retrieval)和生成(generation),先从成熟因子库中检索最相似因子,再通过LLM进行针对性生成优化,平衡创新性与经验传承。
因子表达式通过embedding编码至faiss向量数据库。待优化因子编码后匹配检索,实现“经验启发式”改进。
  • 工艺流程图(图4)清晰管控查询-检索-增强生成的步骤。


5. 改进效果反思提升(章节2.3)


  • 流程与作用:

每个因子改进后,将改进前后因子表达式、解释及IC指标输入LLM,进行反思,自动总结关键改进点,输出优化方向性idea,存入idea pool。
这一机制构建了模型的“自我学习”和经验沉淀体系,有助于长周期性能提升。
  • 示意prompt(图5)显示反思提取指令设计,要求用简单语言总结改进思路,利于后续因子改进。


6. 日频量价因子实践(章节三)


  • 数据与算子:

基于开盘价、最高价、最低价、收盘价、均价(vwap)、成交量、成交额等日频量价数据,设计约30个算子,包括截面和时序操作,用于因子构建分析(详见图表6)。
  • LLM模型选择与实验设计:

比较了多个蒸馏模型(DeepSeek-R1 7B/14B/32B)及满血版API,最终选定效果最佳的满血API。
每轮迭代保留80至100个因子,最后留存89个表现出色因子。
  • 整体表现提升(图7):每轮优化后二因子IC均值提升显著,验证idea pool反馈机制的有效性。
  • 单因子表现(图8-11):

挖掘出的因子逻辑与LLM解释高度对应,表现稳健。多空净值曲线逐年上升,多头分组超额收益在多组中显著。
  • MMR效果验证(图12): 20个随机抽样因子相关矩阵显示绝大多数相关系数低于0.5,验证了因子多样性。
  • 随机初始化因子展示(图13-16): 3个随机初始化因子解释合理且统计表现优秀,体现LLM生成因子初始质量。
  • 随机改进模块效果展示(图17-18) 给出因子通过rank和波动率改进后的统计提升案例。
  • RAG启发改进模块效果(图19): 结合Alpha158因子库经验进行针对性结构化因子改进,优于传统遗传规划粗暴替换。
  • 反思改进模块效果展示(图20-22): 融合反思idea改进因子,调整窗口长度、价量匹配与波动率处理,显著提升因子IC及收益表现。


7. LLM挖掘因子合成方案(章节四)


  • 数据划分与模型构建:

2015-2025年日频数据,2015-2012年训练,2013-2014验证,2015-2025测试。调仓周期为每月初。
使用LightGBM算法对89个核心因子进行合成,超参数调优采用Optuna。
Alpha158因子同样以相同策略构建基准模型,便于对比。
  • 综合表现(图23-26):

LLM因子合成模型IC由12.88%提升至14.26%,多空年化收益从55.97%增至64.23%。
与Alpha158因子相关仅0.66,显示两者互补性强。二者等权合成后(158_LLM)指标进一步改善。
与Barra风格因子相关显示波动性和非流动性因子上偶有暴露,提示策略因子特点。
  • 宽基指数表现(章节4.2,图27-35):

沪深300:LLM因子合成IC达11.11%,多头年化收益11.45%,组合提升至12.76%和17.08%。
中证500:IC 11.03%,多头10.79%,组合提升至11.48%和14.62%。
中证1000:IC 13.75%,多头19.37%,组合提升至14.17%和21.32%。
所有指数均显示LLM因子合成后带来显著提升,且与传统因子成分组合进一步增强策略表现。

8. 基于LLM挖掘合成因子的指数增强策略(章节五)


  • 策略设定与假设:

基于全成分股,控制个股、行业、市值偏离,双边千三手续费,月初调仓。回测期2015年2月至2025年5月。
  • 沪深300测试结果(图36-38):

年化超额收益7.64%,跟踪误差3.92%,信息比率1.95,超额最大回撤5.03%。
历年分解显示除了2019年均实现正超额收益,稳定性较好。
  • 中证500测试结果(图39-41):

年化超额收益达到9.97%,跟踪误差6.12%,信息比率1.63,超额最大回撤6.07%。
各年份表现平稳,表现好于大多数年份的基准。
  • 中证1000测试结果(图42-44):

年化超额收益12.98%,跟踪误差6.20%,信息比率2.09,回撤8.83%。
除2021年外,其他年度均显著超越基准,表现稳定且近期表现优秀。

---

三、图表深度解读


  • 图1 & 图2:揭示因子挖掘领域存在的核心难题与大模型方法的潜在改进路径,突出模型灵活性和相关性控制的必要。图2还详细说明了改进框架的设计理念和目标,强调自动化、高频与一体化运作。
  • 图3:详细展示了完整的挖掘框架流程,从因子数据输入、因子随机生成、三个改进模块(随机改进、RAG启发,反思反馈)、MMR多轮筛选,构成了闭环的自动化因子挖掘平台。
  • 图4:清晰描述RAG流程,体现了如何将检索到的相关成熟因子知识作为上下文增强LLM生成新因子,提升生成准确性与创新度。
  • 图5:展示了因子反思机制的设计Prompt示例,显示如何结构化输入因子信息与改进数据,促使LLM对改进效果做出可复用的总结和提炼。
  • 图6:列举日频量价因子构造时用到的算子,明确因子构建基于各种常见价格和成交量指标、统计函数及相关计算,是整个挖掘框架的基础。
  • 图7:多轮优化因子IC均值提升趋势显著,说明分层改进模块与反馈机制协同发力,实现因子质量的持续增长。
  • 图8-11:展示几个代表性LLM生成因子的表达式、解释及绩效统计(IC、夏普比率等)和净值曲线,直观反映单因子预测和收益能力。
  • 图12:抽样因子间相关性热力图,低相关性印证MMR筛选的有效性,从而保证因子互补,减少冗余。
  • 图13-16:随机初始化的因子结构与表现说明LLM生成因子的合理性和基础质量。
  • 图17-22:覆盖随机改进、RAG改进和反思改进模块的典型案例与统计数据,具体展示了方法如何作用于单一因子,具体改进措施(如趋势中的斜率替代均值)、过滤噪声等技术细节,以及改进带来的性能提升。
  • 图23-26:因子合成模型的统计数据和净值曲线,显著提升IC和值得关注的多空收益走势,尤其是与传统Alpha158因子的互补性及合成效果。
  • 图27-35:在沪深300、中证500、中证1000指数上的合成因子表现,均显示出收益率、IC及多空收益显著的提升,表明方法具备广泛的市场适用性。
  • 图36-44:指数增强策略回测结果展示,结合统计德态与净值曲线,体现策略具备超额收益能力和风险可控性。年度收益分解进一步揭示收益的稳定性与非偶然性。


---

四、估值分析



本报告侧重因子挖掘及策略模拟,未涉及传统股票估值或个股目标价的计算,因此无估值模型部分。

---

五、风险因素评估


  • 模型时效性风险:历史数据回测结果有赖于政策、市场环境的稳定;环境变化可能导致模型失效,性能下滑。
  • 策略执行风险:策略虚拟交易手续费设定为双边千三,实际交易成本、市场流动性、滑点及其他因素变化可能影响收益,甚至导致亏损。
  • 模型假设限制:策略基于对历史数据的假设和建模,未必完全反映未来实际变化。


报告未提供具体的缓解策略及相关概率估计,用户需注重持续监测及动态调整。

---

六、批判性视角与细微差别


  • 报告创新性强,方法体系完整,但对LLM模型的可扩展性和算法复杂度未做深入说明,后续技术实现细节可能存在挑战。
  • 反思机制的效果高度依赖于LLM质量及idea pool内容的丰富度和专业性,初期积累阶段能否持续起到关键作用尚不明确。
  • 由于模型采用LightGBM进行因子合成,非深学习方法,也未探讨因子间冗余的进一步挖掘可能。
  • 日频数据的应对能力较强,但报告未针对高交易频率带来的市场影响及交易成本上升进行细化风险分析。
  • 相关性控制以MMR算法为核心,参数λ选取影响较大,报告未展示具体参数敏感性分析。
  • 研究聚焦于主流A股市场,尚未验证其他市场或更复杂资产类别的适用性。


---

七、结论性综合



本报告全面剖析了基于LLM的大规模量价因子挖掘的新范式,系统提出了结合MMR筛选、RAG经验启发和因子表现反思的三层迭代优化机制,构建了一个灵活的模块化因子挖掘框架。

从理论到实证,报告详细证实了该方法在日频量价数据驱动下的有效性,最后筛选89个因子组成优质因子库。单因子表现统计和多因子合成回测均表明,LLM挖掘因子显著提升预测信号强度与多样性,且融合传统Alpha158因子后获得更优投资收益和稳健性。

宽基指数回测覆盖沪深300、中证500、中证1000,所有主流指数均显著受益于因子增强策略,信息比率均超过1.6,年化超额收益稳定且风险控制良好,展示了极佳的实用价值。

尤其值得注意的是反思反馈机制为挖掘闭环带来了持续的性能提升空间,体现了LLM技术在人类专家知识传承和算法自主优化之间的桥梁效应。

整体而言,报告----作为量化投资领域应对因子挖掘效率和可解释性瓶颈的创新尝试----具有重要的实战意义和理论价值,为后续基于大模型的量化研究与策略开发奠定了坚实基础[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]。

---

报告中关键图表(部分示例)

图1 LLM因子挖掘的必要性
图2 因子挖掘不足及改进目标
图3 即插即用LLM因子挖掘框架
图4 RAG检索增强生成流程图
图10 LLM挖掘因子举例多空净值
图11 LLM挖掘因子举例分组年化超额收益
图24 LLM挖掘因子合成多空净值
图25 LLM挖掘因子合成分组年化超额收益
图29 LLM挖掘因子合成沪深300分组年化超额收益
图37 LLM挖掘合成因子沪深300指增净值
图38 LLM挖掘合成因子沪深300指增分年度收益
图40 LLM挖掘合成因子中证500指增净值
图41 LLM挖掘合成因子中证500指增分年度收益
图43 LLM挖掘合成因子中证1000指增净值
图44 LLM挖掘合成因子中证1000指增分年度收益

---

总体点评



本报告体现了大语言模型技术赋能量化因子挖掘的深刻变革,清晰展现了从基础因子生成到高级因子合成与策略回测的完整技术链条,并辅以丰富的实证数据和可解释性说明,既有理论高度,亦具实战价值。尽管仍存在一定技术细节和未来市场适应性的未知风险,但无疑是量化投资领域值得关注的重要进展。

[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]

报告