`

CNN-DRL for Scalable Actions in Finance

创建于 更新于

摘要

本报告提出了一种结合卷积神经网络(CNN)与深度强化学习(DRL)的量化交易框架,旨在解决传统多层感知机(MLP)在大规模连续动作空间中的学习瓶颈。通过将过去90日的日度特征向量拼接成矩阵输入CNN进行特征提取,显著提升了策略稳定性和收益表现,并在股票买卖规模扩大至1000股的环境下实现了持续稳定的累积奖励增长,同时降低了交易成本和风险指标(夏普比率)表现优异[page::0][page::3][page::4]。

速读内容

  • 研究背景与动机 [page::0][page::1]:

- 传统MLP在处理大规模连续动作空间时,容易过拟合初期探索区间,表现不稳定。
- 引入CNN以利用其对局部特征的识别优势,增强对金融数据动态的适应能力。
  • 状态与动作建模 [page::1]:

- 将股票交易建模为马尔可夫决策过程(MDP),状态包括账户余额、股票价格、持股量及15类财务比率(共511维特征)。
- 动作为每只股票的卖、买、持有动作,动作范围扩展至±1000股。
  • 特征设计与环境构建 [page::1][page::2]:

- 每日特征包括30家公司价格、持股数及450个财务指标(15种财务比率×30家公司)。
- 采用滑动窗口将连续90天的特征向量拼接为(90×511)矩阵,作为CNN输入(图1)。
  • CNN架构设计 [page::3]:

- 采用两层卷积层,加入2D批量归一化以缓解梯度消失和爆炸问题(图2)。
- 输出接全连接层,最终映射至30维动作空间。
  • 实验与对比结果 [page::3][page::4]:

- 在FinRL环境及2015-2023年标普30成分股数据上测试。
- CNN-DRL代理相比MLP-DRL在两个主流算法PPO与A2C下,获更高累计回报,且更稳定(图3)。
- 交易成本(成交次数)降低约7%-15%(图4),夏普比率显著提升,表明风险调整收益更优(图5)。


  • 量化策略核心优势 [page::0][page::3]:

- CNN对数据信息的二维局部模式提取能力使其适合处理长历史序列的状态矩阵。
- 扩大动作空间规模(100→1000股)时,CNN保持学习稳定性,而MLP性能显著退步。
  • 未来研究方向 [page::3]:

- 探索更高频数据、多资产标的及其他市场的泛化能力。
- 进一步优化网络结构与训练稳定性提升策略。

深度阅读

《CNN-DRL for Scalable Actions in Finance》研究报告详尽分析



---

一、元数据与报告概览



标题: CNN-DRL for Scalable Actions in Finance
作者: Sina Montazeri、Akram Mirzaeinia、Haseebullah Jumakhan、Amir Mirzaeinia
机构: University of North Texas(部分作者)、独立研究者
发表会议: CSCI-RTAI(计算科学与智能系统相关会议)
日期: 2023年(据文献及引用分析)
研究领域: 金融领域中基于深度强化学习(Deep Reinforcement Learning, DRL)的量化交易,聚焦于大规模连续动作空间下的动作表达与学习能力提升。

核心论点和目标:
本报告针对深度强化学习在金融市场交易中的一个难点——大规模连续动作空间(如买卖操作的股数扩展至1000股以上)下,传统多层感知机(MLP)架构难以稳定学习的问题,提出利用卷积神经网络(CNN)结构来提升特征提取能力和动作空间的扩展适应性。作者设计了将90天日度特征拼接成输入矩阵的CNN输入形式,并通过实验验证CNN架构在扩展动作规模下,学习过程稳定、累积奖励明显优于传统MLP架构。 报告核心传递的信息是CNN具备更强的局部模式抽取能力,及其对大规模动作空间的泛化能力,能够有效缓解MLP面临的梯度稀疏和过拟合问题。

---

二、逐节深度解读



1. 引言(Introduction)


  • 内容总结

引言部分回顾了强化学习(RL)与深度强化学习(DRL)的基础,包括环境中的状态(state)、动作(action)、奖励(reward)定义,介绍了深度学习与RL结合的趋势,指明DRL在量化交易的应用潜力但同时指出面临的大动作空间挑战。特别指出传统基于MLP的DRL在动作规模增大时面临性能下降问题。
  • 推理与假设:

动作规模大导致MLP过拟合于初始探索范围,无法有效泛化,扩充MLP层数或节点数只能使维度爆炸、梯度稀疏。CNN则通过局部感知域和参数共享机制,有潜力解决上述问题。
  • 关键数据点及术语说明:

强化学习常用算法Proximal Policy Optimization(PPO)、Soft Actor Critic(SAC)被作为基线对比方法说明。DRL涉及连续动作空间,此处动作由买卖股数连续值构成。
  • 概念解析:

- 多层感知机(MLP):一种典型的全连接神经网络模型,适合处理向量输入但对高维连续动作空间表征有限。
  • 卷积神经网络(CNN):通常面对的是二维矩阵输入(如图像),通过卷积核提取局部特征,具有局部平移不变性。


2. 相关工作(Related Works)


  • 总结:文中列举了多种传统和现代股价预测与交易技术,包括统计模型(ARIMA等)、机器学习(支持向量机、随机森林)、深度学习模型(RNN、LSTM、CNN)以及近年来兴起的深度强化学习。

- 推理依据:指出传统统计模型难以捕捉复杂非线性关系,机器学习模型则未充分利用时间序列特性,DRL被认为是当前最具潜力的解决方案,但需解决大动作空间的难题。
  • 重要参考文献:FinRL-Meta项目为开源DRL金融研究平台,被用作实验环境基础。


3. 问题描述(Problem Description)


  • 3.A MDP模型定义

交易环境被抽象成马尔科夫决策过程(MDP),定义了状态空间、动作空间、奖励函数和策略。详细说明:
  • 状态包括账户余额(balance)、股价向量(price)、持仓股数(holdings)、及基本面指标(fundamental indicators)。股票数量D=30。

- 动作针对所有D支股票,包含买、卖、持有三种操作,影响持仓数量h。
  • 奖励定义为组合资产价值增减(股票市值+现金余额);目标为最大化累计奖励。

- 采用PPO与A2C算法作为策略优化方法。
  • 3.B 环境构建

使用基于FinRL的金融交易环境修改为支持二维矩阵输入,包含过去90天数据滑动窗口,模拟实际环境时间序列演变。作者特别提及未采取传统意义上排除市场“动荡期”(turbulence)的方法,而是选择在动荡期也训练策略,体现更强的应对市场波动能力。
  • 3.C 特征向量定义

状态特征向量由以下组成:初始余额1维、30支股票价格30维、持仓30维以及15种财务比率(15*30=450维),特征总维度511。财务指标覆盖流动性(如流动比率)、杠杆(债务比率)、效率(存货周转率)、盈利能力(净利润率等)和市值评估(每股收益等)。
注意,财务指标多为季度数据,股价每日更新,形成有时序层级的混合数据。

4. CNN架构设计(CNN Architecture)


  • 核心内容

基于金融状态数据,将连续90天的511维特征向量拼接成一个90×511的矩阵,作为CNN二维卷积层的输入(单通道)。此设计模仿时间序列中历史行情与财务指标的二维排列矩阵,便于捕获时间维度和特征维度的局部相关性。
  • 网络结构

两个卷积层(核大小分别8和4,步长4和2),后附2D批量归一化层,避免梯度消失和爆炸,最后展平(flatten)进入全连接层输出。输出维度对应动作维度(股票数量及操作)。激活函数使用ReLU。
  • 训练细节

奖励以百万美金初始资金规模对应的组合市值调整而来,缩放至1范围内用于训练稳定。
  • 实验数据

采用2015年至2023年间,包含疫情等重大波动事件的30支道琼斯成分股历史数据。
  • 图表分析

图1展示了90天滑动窗口生成输入矩阵;图2展示网络结构流程;图3奖励学习曲线图显示CNN架构在PPO和A2C两种算法下,随时间累积奖励明显高于MLP对应曲线,且波动性更小,说明学习更稳定。

5. 评估(Evaluation)


  • 基于FinRL环境,动作空间为30维,动作范围映射至-1000至+1000之间,分别对应买卖操作股数,显著高于先前100股的限制。

- 结果显示:
- CNN结构相较MLP显著提升累积奖励,说明其在扩展动作规模情况下具备更好泛化学习能力。
- 交易成本(交易次数)方面,图4表明CNN交易次数明显少于MLP,体现更高效的交易决策,避免过度交易导致高成本。
- 风险调整收益(夏普比率)图5显示CNN在两种算法下均实现超过0.5的夏普率,远超MLP不足0.4的水平,显示更优的风险控制和收益稳定性。

6. 结论(Conclusion)


  • 总结:作者验证了CNN作为状态矩阵输入的DRL代理,在大规模连续动作空间金融交易中相比MLP有着明显优势,表现为更稳定的学习过程、更优的累计回报和更好的风险调整收益。

- 未来展望:提出进一步研究适用性于更多资产类别、多市场环境以及高频数据的潜力。

---

三、图表深度解读



图1 - 滑动窗口创建CNN输入矩阵


  • 描述:展示数据如何以日期为行(90天),日特征为列(511维)构成输入矩阵,形成单通道(1-channel)二维数据。

- 解读:该结构结合了时间序列和多维特征,有利于CNN卷积核在时间与特征双维度捕获局部显著模式。
  • 与文本联系:实现了将矢量型金融状态转化为CNN适用的矩阵结构,解决传统MLP拓展困难。

[page::3]

图2 - CNN具体架构


  • 描述:两层卷积+批归一化+展平+全连接输出的流程图。

- 解读:
- Conv1(核8,步长4)和Conv2(核4,步长2)逐步提取局部特征,降低数据维度。
- 批归一化保证训练稳定性,抑制梯度问题。
- 至全连接层映射到动作空间,实现决策。
  • 支撑观点:设计适应金融时间序列矩阵数据,同时解决训练中梯度问题,增强特征学习。

[page::3]

图3 - CNN与MLP奖励对比曲线


  • 描述:4条折线分别对应CNN-PPO(红线)、CNN-A2C(绿线)、MLP-A2C(蓝点线)、MLP-PPO(黄点线),横轴时间从2015年初至2022年末,纵轴累计奖励(组合资产价值)。

- 解读:CNN的奖励曲线持续且更陡峭上升,显示学习效果优于MLP,表现出更稳定和较高收益。尤其在疫情导致市场波动极大时期,CNN仍能保持较强适应性。MLP奖励曲线波动较大且回撤明显,显示其策略稳定性不足。
  • 与文本联动:验证了CNN架构适合处理动荡市场和大动作规模。

[page::3]

图4 - 交易次数比较


  • 描述:柱状图显示CNN与MLP在PPO和A2C下的交易次数。

- 解读:CNN均显著减少交易次数,说明其策略更节约成本、避免过度交易的弊端,从而实际收益的提升更持久且抵消交易费用影响。
[page::4]

图5 - 夏普比率对比


  • 描述:柱状图展示两种算法下CNN与MLP的夏普比率。

- 解读:CNN显著优于MLP,夏普比率接近0.55,而MLP仅约0.3-0.35,表明CNN获得更优的风险调整收益,更稳健抗波动。
  • 金融风险管理意义重大,提供了评估策略有效性的关键量化指标。

[page::4]

---

四、估值分析



本报告为计算机科学与金融交叉方向的技术研究论文,主要聚焦算法设计与性能评估,未涉及传统意义上的企业估值分析,因此无财务估值相关内容。本文关注模型性能指标(奖励、交易次数、夏普比率)来衡量算法优劣。

---

五、风险因素评估


  • 未明确列出风险条目,但论文通过以下暗示可见部分风险因素:


- 市场环境多变性与噪声:金融市场存在高度波动期和不可预测性,如疫情期的特别市场动荡,模型需具备较强稳健性。作者未排除动荡期,设计旨在增强模型的鲁棒性,减少因极端市场事件导致模型过拟合或失效的风险。

- 数据质量与覆盖度风险:数据来源虽基于Yahoo Finance和Wharton数据集,但依旧存在数据延迟、缺失或错误风险,可能影响模型学习效果。

- 模型泛化限制:当前仅选用30只股票样本,泛化至其他股票、资产类别或市场需进一步测试验证。作者提及未来工作方向。
  • 缓解策略:采用批量归一化解决梯度消失问题,设计滑动窗口捕捉时间顺序,选用先进算法(PPO、A2C)提高稳定性。采集长期历史数据涵盖多种市场环境,增强鲁棒性。


---

六、批判性视角与细微差别


  • 潜在偏见:文章着重突出CNN优越性,MLP作为对照基线,但对比缺少其他先进架构,如Transformer或更复杂的混合模型,局限于两类架构对比,可能影响结论的广泛适用性。
  • 假设不足:虽声明未排除市场动荡期,但未详细说明针对极端波动如何具体调整学习率、参数,及对异常事件的识别机制。
  • 数据层面细节缺失:缺少训练细节,如训练迭代次数、超参数设定、具体网络层数细节、验证集表现、回测时间窗划分策略等,不利于重复性研究。
  • 环境扩展性:作者使用FinRL框架,略显单一,未来考虑跨不同市场和资产类型可能面临的新挑战。
  • 奖励度量敏感性:使用单一累计奖励和夏普率为主要评价指标,弱化了交易执行风险(滑点、流动性风险)等现实因素,实际策略部署前还需更系统的模拟和压力测试。


---

七、结论性综合



该报告提出了一种创新性的基于卷积神经网络的深度强化学习架构,用以解决量化交易中大规模连续动作空间的难题。传统多层感知机在动作空间拓展时因维度爆炸和梯度稀疏而导致学习效率与稳定性下降。作者创新地利用90天拼接的511维日度金融特征构建二维输入矩阵,利用CNN优异的局部特征捕捉能力克服了该限制。

深入解析表明:
  • CNN架构在累积奖励(数值由数万提升至百多万资产单位),交易成本(交易次数明显减少),以及风险调整收益(夏普比率提升至0.5以上)等关键绩效指标上,全方位优于MLP结构,尤其是在使用PPO和A2C两种强化学习算法下均表现出色。
  • 图3的奖励曲线显示CNN能够更稳定地适应市场重大波动(如疫情),说明架构对市场动荡具备一定抗干扰能力。图4和图5进一步传递了该模型在成本控制和风险把控上的实际优势。
  • 设计的CNN架构不仅有效解决了高维动作空间带来的传统DRL训练瓶颈,也为金融领域使用二维CNN分析时间序列和多维财务数据提供了可供借鉴的范例。
  • 该研究摒弃了传统对市场动荡期的排除,增强了实用性和鲁棒性,具备较强的现实应用潜力。


总体而言,报告明确推荐CNN作为未来深度强化学习金融交易策略的重要基础架构。其成果对推动金融AI领域解决高维连续动作问题,提升量化策略性能具有显著启示意义。

---

参考[页码标注]



本文报告所有分析依据涵盖第0至4页全部内容,特别重要数据和图表均溯源对应页码,详见正文中对应[page::x]标注。

报告