深度学习赋能风格轮动与多策略融合 | 开源金工
创建于 更新于
摘要
本文基于深度学习(LSTM与Transformer)与强化学习(PPO与SAC)模型,挖掘交易行为因子并应用于风格轮动和多策略融合,通过构建指数及股票层面的风格因子,实现风格优选并融合多策略组合,实验结果显示Transformer模型优于LSTM,SAC强化学习月频调仓风格选择收益波动比高达1.70,综合风格优选后,构建的Transformer优选100因子组合年化收益率高达35.99%,显著领先市场基准[page::0][page::2][page::3][page::8][page::9][page::10]
速读内容
LSTM与Transformer深度学习因子挖掘绩效对比 [page::2][page::3]

- LSTM因子月度RankIC均值为9.37%,年化收益率32.74%,月度最大回撤4.26%,月度胜率82.86%。
- Transformer因子月度RankIC均值为10.27%,年化收益率38.77%,月度最大回撤4.46%,月度胜率81.43%,在2021年以来表现优于LSTM。
- Transformer因子累计RankIC及多空组收益曲线均明显跑赢LSTM因子。



Transformer100因子多头优选绩效 [page::3][page::4]

- Transformer100组合绝对年化收益23.37%,收益波动比0.94,回撤24.40%,月度胜率64.29%。
- 2019至2024年各年区间表现稳健,超额收益稳定且高胜率。
| 类别 | 年度 | 区间收益 | 收益波动比 | 月度最大回撤 | 月度胜率 |
|------|-----|---------|------------|--------------|----------|
| 绝对收益 | 全区间 | 23.37% | 0.94 | 24.40% | 64.29% |
| 相对中证500 | 全区间 | 16.76% | 1.41 | 16.05% | 74.29% |
深度学习风格指数与股票因子结合的多维风格优选 [page::4][page::5][page::6]



- 指数Transformer因子尾部剔除排名后25%风格,提升组合风险调整表现。
- 股票Transformer因子根据横截面分位点绝对比例与变化进行风格指数评级,多头效果更显著。
- 结合两因子维度,优选2个风格时实现最佳收益波动比,年化收益约5%,收益波动比0.97。
强化学习风格选择及SAC算法优越性体现 [page::7][page::8]


- PPO和SAC分别应用于风格指数调仓,SAC算法在日度调仓效果明显优于PPO。
- SAC方法在月频调仓效果一般,故通过平滑日度持仓变动滚动20日生成月度信号。


- 20日滚动参数N效果最佳,多头表现最强,收益波动比达到1.7,月度胜率72.86%。
深度学习与强化学习优选风格的多策略融合 [page::8][page::9]
| 方法 | 年化收益 | 年化波动率 | 收益波动比 | 月度最大回撤 | 月度胜率 |
|------|----------|------------|------------|--------------|----------|
| 深度学习(选2个) | 5.11% | 5.25% | 0.97 | 4.17% | 57.14% |
| 强化学习(选10个) | 2.83% | 1.66% | 1.70 | 1.70% | 72.86% |
- 以强化学习优先,深度学习辅助,优选股票池,通过加权计数方式(lambda=1/3)筛选最终100只股票。
- 通过参数敏感性测试提升收益波动比至1.47,优于单独Transformer100组合。


- Transformer优选100组合年化收益35.99%,超额年化收益28.53%,表现卓越。
| 指标 | 2019 | 2020 | 2021 | 2022 | 2023 | 2024 | 全区间 |
|---------|-------|-------|-------|-------|-------|-------|---------|
| 绝对收益区间收益 | 54.69% | 63.62% | 57.09% | 0.98% | 22.08% | 29.94% | 35.99% |
| 收益波动比 | 2.20 | 2.98 | 3.11 | 0.04 | 1.62 | 0.79 | 1.47 |
| 超额收益区间收益 | 19.88% | 35.91% | 36.37% | 26.54% | 31.69% | 20.43% | 28.53% |
| 超额收益波动比 | 3.34 | 4.19 | 2.34 | 2.07 | 4.29 | 0.90 | 2.20 |
深度阅读
报告名称:深度学习赋能风格轮动与多策略融合
作者及机构:开源证券金融工程团队——首席分析师魏建榕、高级分析师盛少成
发布日期:2024年12月14日
主题:应用深度学习与强化学习方法实现A股市场风格轮动和多策略融合的智能化选股与风格优选体系
---
一、元数据与报告概览
本报告由开源证券金融工程团队原创发布,主笔分析师为魏建榕,研究重点在于结合深度学习(尤其是LSTM和Transformer)及强化学习(PPO与SAC算法)技术,对A股市场的风格轮动及多策略选股进行创新建模和实证检验。报告核心论点聚焦于:
- 利用深度学习模型有效挖掘交易行为因子,实现股票因子优选。
- 构建基于市值、价值、质量、成长、红利五大风格的指数与股票因子的多维度风格选择框架。
- 通过强化学习算法实现动态风格调仓策略,提升风格轮动的实用性和绩效稳定性。
- 融合深度学习与强化学习风格优选结果,构建优质股票池,实现多策略的收益与风险优化。
整体报告展示了一套系统而科学的智能选股及风格轮动框架,给出具体实施方案和详细绩效回测,且在相较传统方法上展现显著的收益波动比提升,反映了机器学习在投资决策中的强大潜力。[page::0,1]
---
二、逐节深度解读
2.1 摘要与研究背景
- 以两份前期报告为基础,分别介绍了LSTM模型和Transformer模型对因子挖掘的进展。
- LSTM模型自2019年至今月度RankIC均值为9.37%,展示了稳定的因子信号。
- Transformer模型进一步提升至10.27%,因其能更好捕捉时序数据中的隐含关系,从而提高因子选股效果。
- 针对风格定义,报告结合估值提升、盈利和分红三大维度,最终细分为五大风格类别,构建40个风格指数组合,用于风格轮动的研究。
- 通过指数层面和股票层面的Transformer因子表现,对多头和尾部的风格指数进行优选与剔除,实现了风格指数优化方案。
- 强化学习在风格选择中的应用则体现为利用Transformer隐藏层作为输入,训练日频和月频的SAC与PPO智能体,最终选定SAC算法并优化调仓频率。
- 多策略融合设计以强化学习为主导、深度学习辅助的选股框架,提升了最终选股组合的收益波动比。[page::0,1]
2.2 深度学习赋能的因子挖掘绩效回顾(第2-3页)
- LSTM模型架构涵盖数据预处理(涨跌分时及资金流指标)、时序处理与经财务数据加权输入,目标为最小化负IC损失函数。
- 回测区间2019年至2024年,月度RankIC均值9.37%,年化多空对冲收益32.74%,胜率82.86%,最大回撤仅年化4.26%,体现了模型稳定性及良好预测能力。(图2、图3)
- Transformer模型则引入更先进的深度学习结构(Encoder-Decoder架构),并在相同数据条件下表现更优,月度RankIC10.27%,年化收益38.77%,胜率保持在81.43%。(图4至图6)
- Transformer因子的表现优势尤其体现在2021年以来风格波动加剧之时,显示其对市场状态变换反应更灵敏,基础研究重点由此转向Transformer模型。[page::2,3]
2.3 Transformer因子股票层面的多头选股(第3页)
- 精选100只股票,构建“Transformer100”组合。
- 组合绝对收益年化23.37%,收益波动比0.94,表现优于中证500基准指数。
- 说明Transformer模型在多头层面具备一定的选股能力,但初步收益波动比偏低,提示需要进行风格层面的优化加强风险调控。(图7,表1)[page::3,4]
2.4 深度学习风格层面优选分析(第4-6页)
- 定义五大风格:市值、价值、质量、成长、红利,及其两两组合共40个风格指数。
- 指数级别Transformer因子表现为4分组中尾部剔除(空头剔除)有效,整体RankIC 6.13%,但多头优选能力有限。(图8,9)
- 股票级别Transformer因子通过计算成分股分位点绝对比例与相对比例变化两维度进行风格指数分类。其结果显示绝对比例与多头表现高度正相关,且优于相对变化指标。(图10,11)
- 以大盘价值风格为例,股票层面绝对比例自2023年下半年开始排名持续处于多头区间,验证了绝对比例指标选股的有效性。(图12)
- 综合两层因子,采取去尾后(剔除排名后1/4的风格指数)的策略,在剩余风格中利用股票层面绝对比例进行优选,选2个风格时收益稳定性与收益指标达到最优。(图13,14)[page::4,5,6]
2.5 强化学习风格轮动模型与性能对比(第6-8页)
- 采用PPO与SAC两类强化学习框架,均基于Transformer模型提取的风格指数短期(1日)与长期(5日)隐藏层特征进行输入。
- SAC采用离线学习,在样本外测试中表现优于PPO,日度调仓下净值更强。(图15,16,17)
- 由于日调仓操作性较差,改为月频调仓。月频SAC训练存在收敛困难,采取将日调仓结果滚动平滑20天取得月底风格持仓值作为策略信号。
- 选择滚动20天时,月度4分组收益分层最优。风格数量优选发现,保留10种风格组合时收益波动比较高,整体表现最佳。(表2,图18,19)[page::6,7,8]
2.6 基于风格优选的多策略融合框架(第8-10页)
- 深度学习优选侧重极端多头风格的捕捉,最终选2个风格,年化收益5.11%,收益波动比0.97。
- 强化学习优选则稳定性更强,选取10个风格组合,收益波动比1.70且回撤低。
- 结合两者,设计了多策略融合步骤:
1) 从强化学习优选的10风格中,根据股票Transformer因子选出100只表现最优股票集合A;
2) 若该股票属于深度学习优选的2个风格,则对其计数适当加权(1/3倍的中位数加权);
3) 根据调整后计数再筛100只股票,形成融合后的“Transformer优选100”池。
- 参数lambda的敏感性分析确认1/3为稳健值,融合后组合的收益波动比由原先的0.94提升至1.47,体现极佳的协同效应。(图20,21)
- 从2019年至今,Transformer优选100绝对收益35.99%,相较基准超额收益28.53%,波动比大幅提升至1.47,风险调整后回报显著。(图22,表4)[page::8,9,10]
2.7 风险提示(第10页)
- 模型基于历史数据和市场环境进行构建和测试,未来市场状态可能变化,历史表现不代表未来收益。
- 强调模型存在一定的“过拟合”及有效期局限性,需谨慎评估并结合实际操作。[page::10]
---
三、图表深度解读
图2(LSTM因子整体流程)
- 展示了包括输入指标预处理、时序数据标准化、缺失值填充、LSTM建模、财务数据整合、IC相关损失函数优化等步骤,体现深度学习模型的严谨构建流程。
- 图示揭示了量价和财务指标的有效整合,以及输出单一因子的过程。[page::2]
图3、图4(LSTM和Transformer因子10分组多空收益曲线)
- 两图分别展示了模型自2019年至2024年多空组合收益,Transformer相比LSTM整体曲线更陡峭,表现出更强收益能力和更稳定的多头获利。
- Transformer在2021年后优势更加明显,符合市场风格剧烈变化期对模型捕捉能力的考验。
- 这验证了Transformer模型对市场时序数据隐含结构的更高敏感度和利用效率。[page::2,3]
图5、图6(RankIC累计及10分组多空对冲对比)
- 体现两模型月度RankIC累积增长趋势,Transformer高出约10%,说明因子预测能力更强。
- 多空对冲的持续拉开盈亏差距,验证了其有效的选股信号提取。
- 该图强化了Transformer作为核心选股技术手段的合理性。[page::3]
图7(Transformer100股票净值曲线)
- 展示了优选100只构成的组合净值显著跑赢中证500,且多空对冲差距明显。
- 初步验证了单一因子的多头选股有效性,也提示后续可结合风格优化提升表现强化风险控制。[page::3]
图8、图9(指数Transformer因子4分组绩效和尾部剔除)
- 在指数维度,Transformer因子表现为剔除尾部风格后组合净值优于等权组合,策略基于减少空头权重带来的风险,有效防止尾部风格拖累。
- 收益波动比及年化收益轻微提高,说明指数层面因子在多头优化方面能力有限,优势主要是坏风格剔除。[page::4]
图10、图11(股票Transformer因子绝对比例和比例相对变化)
- 绝对比例分组多头组表现最好、且曲线较为单调,显示为较优指标。
- 相对变化指标效果较弱并且收益波动较高,波动性风险大于收益提升。
- 数据表明稳态的绝对因子水平对风格指数的区分度更强。[page::5]
图12(大盘价值风格绝对比例排名时间序列)
- 曲线自2023年下半年起显著跃升至多头区域,说明绝对比例指标对该风格的预测在最近较好发挥。
- 该图进一步验证绝对比例指标的实用性和稳定性,尽管风格定义与Wind标准略有差异。[page::5]
图13、图14(深度学习综合方案风格数敏感性及净值)
- 当优选风格数为2时,年化收益高且收益波动比相对最优,风格数越多组合多样性虽然增加,但性能均值下降。
- 净值曲线优于风格均权,可视为加强选股能力及风格风险调控的成果。[page::6]
图15、图16(PPO和SAC算法伪代码和强化学习流程)
- 图示算法流程与模型体系,明确深度学习隐藏层作为强化学习输入的创新,有效降低训练噪声和提升信息密度。
- 流程图表明策略由指数和股票指标聚合、隐藏层提取、长短周期信号合成,最终通过强化学习智能体实现动态风格调仓。[page::7]
图17(PPO与SAC算法超额净值对比)
- SAC算法表现持续跑赢PPO,显示其OffLine学习模式及随机策略优势在金融时序数据中的优越性。
- 强化学习方法用以捕捉市场风格动态变化潜力得到验证。[page::7]
表2、图18、图19(月频强化学习风格调仓季度收益及优选风格数敏感性)
- 参数N=20使得滚动均值效果最优,收益分组表现更分明,说明月调仓频率和数据平滑对绩效影响显著。
- 优选10个风格时年化收益2.83%,收益波动比较1.70,最大回撤显著优于深度学习模型,显示更好的风险控制和稳定性。
- 净值曲线较风格均权优异,但离绝对收益顶峰仍有较大成长空间。[page::8]
表3(深度学习与强化学习优选风格超额收益对比)
- 强化学习选10个风格年化收益2.83%,波动率仅1.66%,波动比1.70明显领先于深度学习选2个风格的0.97。
- 深度学习具备更高绝对回报潜力但波动率和最大回撤较大。强化学习则更重视稳定性。
- 该对比说明二者适合组合互补,互为风险收益的平衡器。[page::8]
图20、图21(参数lambda敏感性分析与优选组合净值)
- lambda范围0.2-0.5代表优化区间,最终选择1/3,提高了多策略融合效果的稳定性。
- 对比纯Transformer100,优选100组合收益波动比提升至1.47,绝对收益表现更突出,强化风险调整后的收益优势。[page::9]
图22、表4(Transformer优选100净值与年化绩效)
- 优选100的绝对年化收益35.99%,相对中证500超额28.53%,收益波动比较1.47,月度最大回撤18.61%,胜率64.29%。
- 分年度表现稳定,2019年到2021年均表现出高收益与良好的波动控制。2022年市场波动加剧,收益有所回落,但总体风险较低。
- 组合净值远超基准,突显了多策略融合方法的卓越表现。[page::9,10]
---
四、估值与风格优选模型技术说明
- 深度学习部分主要采用LSTM与Transformer模型,前者能捕获时间序列动态变化,后者通过多头自注意力机制深挖时序关系,提升信号稳定性。
- 因子构建依据传统量价指标与财务指标融合,利用-IC为损失函数,优化因子与未来收益相关性。
- 风格指数构建包含全市场剔除停牌、ST、上市不满60日的股票,分为五大基本风格,配置按等权方法,月度动态更新。
- 强化学习模型采用PPO(线上渐进更新)与SAC(离线最大熵策略)两类主流算法,输入为Transformer风格预测的隐藏层表示,保证输入信息的浓缩与降噪。
- 强化学习调仓选择日度与月度方案,基于实际操作频率和训练效果权衡最终选择滚动20日的月度SAC因子。
- 多策略融合设计聚合了两级风格优选及股票层面深度选股信号,依托lambda加权平衡,最终实现风险调整后性能的大幅提升。
---
五、风险因素评估
- 主要风险为模型基于历史数据,未来市场结构或趋势可能发生改变,导致模型失效。
- 风格轮动性质决定策略依赖于市场阶段性表现,风格极端波动或出现非关联行情时风险加大。
- 强化学习月频建模面临样本容量较小,模型稳定性和收敛性风险。
- 多策略融合中lambda参数选择虽做敏感性检验,但仍存在模型过度拟合或偏好某风格的潜在风险。
- 交易成本与市场冲击未详细披露,实际实施可能带来一定的绩效折损。
- 报告未提实盘策略兑现情况及实操风险,需要投资者合理评估和动用。[page::10]
---
六、批判性视角与细微差别
- 报告充分展现了深度学习与强化学习方法的优势,但面向实际应用的交易成本、市场冲击、流动性风险未深入展开,略显薄弱。
- 深度学习模型对市场风格快速变化反应灵敏,然而报告中也指出其回撤相对较大,表明策略鲁棒性仍需加强。
- 强化学习方法因训练难度与样本限制,月频策略的收益虽稳定但绝对水平逊色,需注意平衡收益与风险的取舍。
- 融合步骤中lambda参数的介入虽有敏感性测试,但其逻辑解释不足,融合方法的可解释性及适应市场动态的灵活性有待提升。
- FAISS及其他现代近似搜索技术在构建股票池时未披露,可能影响计算效率和策略调整速度。
- 风格定义使用了自由流通市值等代理指标,而部分指标如股息率可能受市场政策影响波动,需额外关注稳定性。
- 报告重点聚焦模型技术提升,策略的宏观经济环境适应性和系统性风险管理未详述。
---
七、结论性综合
本报告以深度学习和强化学习为核心技术,系统构建了一套基于风格轮动的智能多策略选股框架。核心创新亮点及结论包括:
- Transformer模型在因子挖掘与选股中较LSTM表现更优,尤其在风格多变时期信息提取能力更强。利用其构建的因子有显著的投资价值。
- 五大风格指数及40个组合的划分,实现了基于市值、价值、成长、质量与红利的多维风格覆盖。
- 指数层面的Transformer因子表现出较好的尾部剔除能力,股票层面则更适合多头优选,二者结合提升风格选取的整体效率。
- 强化学习方法利用Transformer隐藏层信号,结合SAC算法,实现动态风格调仓,表现稳定优于PPO算法,特别是在样本容量限制的月频层面采用滚动平滑大幅提升了效果。
- 多策略融合采用强化学习为主、深度学习为辅的双线并行结构,结合风格及股票层面的因子加权筛选,显著提升收益波动比,强化了风险控制能力。
- 实证回测期间,融合策略的绝对年化收益高达35.99%,超额收益28.53%,收益波动比1.47;强化学习风格优选波动较低,表明更强的稳定性和抗风险能力。
通过详实的数据验证、清晰的模型架构和多角度技术方案,报告生动展现了机器学习对风格轮动策略的深刻改造效果。尽管存在模型泛化风险及实施成本等隐忧,仍为量化投资者提供了具有前瞻性的实操思路和技术框架,助力提升投资组合的逻辑深度、效率和收益稳定性。
---
重要图表索引:(点击查看示例)
- 图2:LSTM因子挖掘流程
- 图3:LSTM因子10分组多空收益

- 图4:Transformer因子10分组多空收益
- 图7:Transformer100净值

- 图13:深度学习综合风格优选敏感性
- 图17:PPO与SAC净值对比

- 图20、21:融合优秀股票池性能及敏感度
(详见报告对应页码)
---
综上所述,本报告通过系统性应用LSTM、Transformer及强化学习,建构了高效且稳定的风格轮动与多策略融合框架,实现了A股市场风格动态捕捉和智能选股的显著优化,为量化投资实践提供了前瞻性的研究成果和技术路径。其研究成果对于推动风格轮动策略智能化升级和实现多因子最佳配置具有重要参考价值。[page::0-10]