Modelling crypto markets by multi-agent reinforcement learning
创建于 更新于
摘要
本报告提出了基于多智能体强化学习(MARL)的加密货币市场建模方法,利用Binance 2018-2022年153种加密资产的日收盘价数据进行校准。模型通过自主学习智能体,结合市场价格与资产的基本面估值,动态模拟买卖行为、订单簿撮合机制。结果显示模型能有效复现加密市场的非高斯收益分布、波动率聚集及价格自相关衰减等重要微观结构特征,验证了在多变且高度波动环境下,MARL对捕捉复杂市场行为的适用性和解释力[page::0][page::1][page::19][page::20]。
速读内容
- 模型架构与原理 [page::7][page::8]:

- SYMBA系统由多个自主强化学习智能体组成,每个智能体使用两个RL算法:一个用于价格预测(${\mathcal{F}}^{i}$),另一个用于交易决策($\mathcal{T}^{i}$)。
- 智能体基于价格波动、基本面估值与交易量信息做出买卖持仓决策,通过集中式双拍卖订单簿撮合撮合交易。
- 数据与校准 [page::16][page::17]:

- 使用Binance平台2018-2022年持续交易的153种加密资产日K线及交易量数据。
- 模型超参数包括智能体数量、动作手势幅度、基本面协整精度及回撤阈值,经随机及敏感度分析进行调优。
- 强化学习算法细节 [page::11][page::12][page::13][page::14][page::15]:
- 预测算法(${\mathcal{F}}^{i}$)状态空间包含长期波动、短期波动和价格与基本面偏差,动作涵盖均值回复、移动平均、趋势跟踪等三种预测方式,以及预测时间窗口和技术面与基本面的权重调整。
- 交易算法($\mathcal{T}^{i}$)状态包含预测结果、波动性、风险资产情况、持仓量和交易量,动作决定买卖持仓和报价方式,综合市场价、主体权重与订单簿张力设置买卖价。
- 模型表现与微观结构匹配 [page::19][page::20][page::21][page::22][page::23][page::24]:








- 模拟数据成功复制了加密资产收益的非正态分布(厚尾特性)、波动率与交易量的聚集性。
- 自相关结构符合市场记忆衰减规律,且无明显可套利异常。
- 某些短期极端波动事件分布与真实数据仍有差异,可能因缺少日内频繁波动及外部冲击因素。
- 多智能体强化学习(MARL)对市场行为的贡献 [page::18]:

- MARL模型中表现最佳10%智能体的收益曲线明显优于采用零智能体(noise agents)的随机交易模型。
- 体现自主学习智能体通过交互适应市场,有效增强交易绩效及市场动态建模能力。
- 未来改进方向 [page::20][page::24]:
- 加入更细粒度的日内交易数据,增强对极端事件和零自相关峰值的模拟能力。
- 模拟更多样化的交易策略、杠杆效应及市场监管影响。
- 考虑多币种计价和DEX等分散化市场结构的建模。
深度阅读
金融研究报告详尽分析
报告题目:Modelling crypto markets by multi-agent reinforcement learning
作者:Johann Lussange, Stefano Vrizzi, Stefano Palminteri, Boris Gutkin
发布机构:École Normale Supérieure,Center for Cognition and Decision Making (NU Higher School of Economics),INSERM
日期:未明示具体日期,研究涵盖数据至2022年
主题:加密货币市场建模,基于多智能体强化学习模型实现对加密市场微观结构的再现及分析
---
一、元数据与概览
报告基本信息
本报告由巴黎École Normale Supérieure和莫斯科高等经济学校心理学系研究人员联合撰写,聚焦于运用多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)技术建模并仿真加密货币市场。特别是利用Binance(币安)交易所2018年至2022年间153个持续活跃的加密资产的日收盘价数据,旨在通过底层智能体行为模拟底层市场机制,进而探讨市场整体表现。
报告核心论点
- 本研究设计了一款名为SYMBA的MARL模型,区别于以往零智力智能体(zero-intelligence agents)或单一自律代理算法的传统代理模型,实现智能体自主学习预测价格和交易决策。
- 强调智能体基于两类信息进行资产定价:市场即时价格与加密资产的“基本面价值”估计(通过虚拟生成的方法模拟,非即时可见给代理的)。
- 精准地校准模型参数以吻合真实市场数据,模型能准确模拟不同熊牛市条件下的加密市场微观结构特征和行为。
- 研究强调了加密市场的复杂性和传统金融市场模型无法覆盖的特殊属性(如交易全天候、独特的基本面因素、去中心化协议对市场结构的影响等),强调需要采用新的颠覆型方法。
该研究的贡献
- 继承并扩展之前SYMBA股市模型,将其迁移至高度波动的加密货币市场环境中。
- 通过引入强化学习赋能的多智能体,模仿投资者学习和适应市场复杂动态的过程,模拟价格形成和订单簿交易机制。
- 开源代码并对模型进行参数优化及当代市场数据校准,支持学术及实务界深入研究和二次开发。
---
二、逐节深度解读
1. 引言
报告指出,传统股市的基本面估值与订单簿机制难以直接适配加密市场,因为加密资产属性复杂多样——包括效用型代币(access/service)、加密货币(交易及价值存储)、安全型代币(资产所有权)等多重分类,以及背后的区块链技术和协议差异。这些内外因素,诸如技术健壮性、供应机制、用户接受度、法规环境,构成加密资产基本面的异质性,与股市“业绩驱动型”基本面存在本质区别。
报告强调,鉴于加密市场极端波动性及非传统微结构特征,股市传统模型风险被市场特殊性“超车”,因而MOS和ABM(多代理系统和基于代理的建模)被引入研究。
2. 过往研究综述
- 以往研究多依赖零智力代理,并以能力有限的智能体组合模拟市场。
- 过去20多年内,ABM成功模拟了一些跨市场通用的市场“风格事实”(stylised facts),如非高斯收益分布(重尾和偏度)、波动集群、收益自相关快速衰减等。
- 这些风格事实揭示了价量波动的普适金融机制,美国学者如Cont、Lux、Bouchaud等的经典贡献被广泛引用。
- 新兴方向是结合机器学习,尤其是强化学习,推动智能体自主学习策略能力。这一方向尚处于发展阶段,但已有研究尝试将MARL应用于加密市场和订单簿建模。
3. 新趋势与本研究贡献
- 自比特币诞生(2009)至今,加密市场急速扩大至数千种数字资产,总市值巅峰数万亿美元。
- 作者过去研究已搭建SYMBA股市模拟器,推行多智能体强化学习,模拟股票市场微结构里的投资者学习与交易行为。基于该框架,本报告将模型扩展校准至Binance加密资产市场。
- 该模型智能体具有双重强化学习任务:
- 价格预测(基于技术指标和个体对于基本面的估计)
- 交易决策(参与中枢订单簿,发出买卖限价单)
- 交易单位为整份资产(考虑实际加密市场可以拆分小数位上的交易,这是简化假设)。
- 模型仿真时间步涵盖24/7全天候市场,模拟粒度为日级别。
---
4. 强化学习简述(Section 2)
- 强化学习环节设定状态空间、动作空间及奖励函数,采用Markov决策过程(MDP)框架。
- 本研究中,代理通过策略函数\(\pi(s,a)\)学习如何基于状态 \(s\) 采取动作 \(a\),目标是最大化带折现因子的累计奖励。
- 介绍策略基础与价值基础方法、模型基和无模型方法,并阐明策略梯度、Q-learning等算法。
- 强调强化学习的探索与利用权衡、时间延迟奖励赋值、维度灾难等在金融环境中的重要性。
- 现代方法包括深度强化学习、多智能体强化学习及层次化、元学习等前沿研究方向。
---
5. 模型与数据架构(Section 3)
5.1 SYMBA模型框架(含图7)
- 整体架构包括多个智能体和多订单簿,智能体根据市场状态同时运行两个强化学习算法:
- \(\mathcal{F}^{i}\):预测未来价格
- \(\mathcal{T}^{i}\):基于预测和市场状态决定交易行为
- 智能体动作输出包含订单类型、交易手势,输入状态为历史波动、交易趋势、持仓信息、流动性等。
- 订单簿执行双边拍卖,撮合买卖单产生成交价和成交量,更新市场状态反馈给智能体。
5.2 初始化细节(Section 3.2)
- 参数初始化包括:智能体数量 \(I\),资产数量 \(J\),交易时长 \(T\)(以天计)。
- 交易手续费、无风险利率、年化收益率等财务参数假定均一。
- 智能体各异参数包含交易窗口期、风险资产金额、加密资产持仓、投资期限、回溯记忆长度、交易手势强度、反身性参数(即决策权衡基本面与技术面),强化学习率,以及破产判定的亏损阈值。
- 以随机分布方式设定并部分可由超参数决定(详见表1)。
- 资产基础“基本面”价格以跳跃随机过程模拟,智能体通过各自的协整模型对真实基本面估值作带偏差的近似。图9展示真实和多智能体个别估计的对比。
5.3 智能体强化学习算法详解(3.3, 3.4)
- 第一个RL算法 \(\mathcal{F}^{i}\):价格预测
- 状态维度27基于长期与短期波动、价格与基本面偏离的分类(低、中、高)
- 动作维度27,包含经济计量选择(均值回复、滚动平均、趋势追踪)、预测时间窗口及对基本面权重的调整
- 预测价格为技术指标和基本面加权加总,权重由代理反身性参数调整,策略通过离散化策略搜索动态更新,根据预测误差反馈修正。
- 第二个RL算法 \(\mathcal{T}^{i}\):交易决策
- 状态维度108,跨价格预测趋势、波动、市值、持仓、交易量等指标
- 动作维度9,决策买卖持仓及交易价格调整(基于市场价加减市场买卖差价乘以手势参数)
- 添加滤波函数 \(\mathcal{G}^{i}\),根据动作价值函数及距离上次交易时间比率决定何时提交订单
- 以实际交易产生的现金流变化作为奖励,对策略概率进行离散更新,同时设有“离线”策略调整机制。
- 两算法均采用离散化、手工构造状态动作空间实现,兼顾计算效率和模型可解释性。
---
6. 模型校准与数据(Section 3.5)
- 训练集选取Binance加密货币真实交易数据,时间跨度2018-09-27至2022-09-27,共计153个连续活跃加密资产。
- 数据为币安独立源,每日收盘价和成交量,强调加密市场全天候交易不同于传统股市。
- 使用半数资产作为训练集,另半测试集,图5展示训练测试集对数收益分布高度重合。
- 模型假设简化:只考虑买卖持有长仓策略,不涉及融券卖空、杠杆等复杂衍生品。
- 表1列出超参数调整区间,运用大量重复模拟(20次)与超参数遍历来优化
- 灵敏度分析发现:增多智能体数量降低短期价格波动幅度,增大手势参数及协整精度拉升收益波动幅度,破产容忍阈值较大影响较小。
---
7. 模型性能对比(Fig. 6)
- 显示基于强化学习代理的SYMBA模型与零智力噪音模型智能体的收益表现差异,强化学习智能体在剩余模拟时间段表现出明显正收益(年初至今增长曲线),而随机噪声智能体收益为负。
- 这一对比强调RL智能体学习适应市场规则,体现了模型智能体“理性”特征。
---
8. 模型结果及微结构分析(Section 4)
- 收益对数分布(Fig. 7)
- 模拟数据对实际数据的分布拟合度较高,特别是中间区间,尾部极值存在一定缺失,暗示难以完全捕捉极端跳跃事件。
- 波动率分布(Fig. 8)
- 不同时间间隔(日、季、年)波动率分布均与实测趋势相似,但模拟数据整体偏向较低波动,推测因疫情与投机泡沫期间真实市场更激进。
- 成交量自相关(Fig. 10)和价格自相关(Figs. 9, 11-14)
- 清晰呈现交易量及价格对数收益的波动集群和自相关衰减,模拟数据同样展示聚类效应和记忆衰退趋势。
- 但模拟模型中出现大量零自相关点,主要因模拟粒度(日度)未涵盖真实市场的30分钟甚至秒级高频交易行为,模型内在时序较粗。
- 整体结论
- SYMBA模型成功捕捉加密市场非正态收益、波动率聚集、衰减自相关等风格事实,且符合无套利市场的统计特征,说明多智能体强化学习具备再现复杂市场微观机制的潜力。
---
9. 讨论(Section 5)
- 本研究证明MARL方法在高波动且复杂的加密市场环境下,能够通过底层代理自适应学习,有效模拟市场价格和交易动态。
- 强调模型虽已能较好拟合实证现象,但对长尾波动和零自相关峰值的拟合仍有改进空间,需进一步研究加入更细粒度与更丰富市场因素。
- 建议后继研究扩展模拟对宏观经济冲击、政策监管、去中心化交易所特征等外生因素的响应能力。
- 强调该方法为理解加密市场风险管理、政策制定及投资策略优化提供新的思路和框架。
---
三、图表深度解读
图7(第20页),加密资产收益对数分布
- 黑色虚线为真实币安市场对数收益分布,红色实线为模型复现结果。
- 横轴为价格对数收益,纵轴为计数(以bin方式统计),对数刻度呈现尾部行为。
- 模型较好拟合中间大部分收益区间,尾部存在部分欠拟合,说明模型虽再现价格波动结构,但对极端价格跳跃捕捉有限。
- 该分布非高斯,具有肥尾和偏度特征,符合文献中加密资产收益非正态的已知事实。
- 这一表现验证了模型有效捕获加密市场非正态收益分布的能力。
图8(第21页),分时期波动率分布
- 各曲线分别代表2周、3个月、1年窗口期内价格波动率分布,用实线(模拟)与虚线(币安实际)比较。
- 模型为较低整体波动偏移,表明模型在真实波动峰值的拟合上略显保守。
- 长期波动率(1年)模拟偏差更大,反映此次样本期疫情等极端事件带来的真实波动极值难以完全捕捉。
- 不同颜色清晰展现时间尺度对波动率分布形状的影响,并支持模型对多期限结构的模拟能力。
图9(第21页)及图10(第22页),收益与成交量自相关分布
- 这两图展现连续时间段内交易量及收益率的自相关系数分布,左侧被截断的零值较多,符合波动聚集理论。
- 模拟与真实数据的曲线形态高度一致,既能反映市场无明显短期套利,也展现记忆效应的衰减趋势。
- 模型在捕捉广泛市场记忆结构方面表现卓越,但零自相关较多可能因采样频率不够细致。
图11至图14(第22-24页),不同间隔的波动率和收益自相关均值分析
- 这些柱状及折线图展现不同时间跨度与偏移下的收益波动自相关均值,实红两者近似重合。
- 自相关整体为负,且随时间滞后衰减,吻合市场有效性假设与无套利理论。
- 模拟数据略有超出零的自相关峰值,和实际市场间小差异值得后续探索。
- 这些数据为验证模型再现市场记忆特征和市场微观结构合理性的重要依据。
---
四、估值分析
报告未涉及直接股权估值等传统金融估值(DCF、PE等)方法,重点在于利用多智能体基于强化学习的动态仿真和基于虚构基本面时间序列的动态资产定价,因此不具传统估值部分。
---
五、风险因素评估
- 模型存在对虚拟基本面过程( \(\mathcal{T}^j(t)\) )高度依赖,真实基础数据受限。
- 不包含多资产类别多样化,策略单一(无杠杆、做空、衍生品)。
- 忽略市场日内波动、季节性效应,及法律政策突变的影响。
- 采用长时间步交易日采样可能过滤掉市场实际某些高频短线行为。
- 这些限制都可能导致模型对极端市场事件和多样行为的拟合不足。
- 未完全覆盖新型去中心化交易平台特性影响。
---
六、批判性视角与细微差别
- 报告对强化学习方法适用性认可,然模型用离散且手工构造的状态动作空间,虽计算高效但对行为的丰富度限制明显。
- 基本面估值高度理想化,实际加密资产“基本价值”属于高度争议且难以准确数字化的概念。
- 模型择取单维资产交易简化现实复杂度,缺少投资者异质性、市场结构演化等因素。
- 现实市场的监管与市场创新速度快,模型未集成此类制度性演变,限制了外推能力。
- 图示结果显示模型尾部拟合不足,强调了后续对极端风险和跳跃扩散过程完善需求。
- 零自相关峰值虽被合理解释为建模粒度限制,但也提醒需更多考察市场微结构和高频数据对价格行为的影响。
---
七、结论性综合
本篇报告围绕MARL基础的SYMBA模型,展开了对加密货币市场复杂机制的建模和实证校准。研究通过严密设计的双层强化学习智能体(预测公设与交易决策)和中枢订单簿系统,模拟出了币安市场153个资产近四年的价格与交易量动态。
经过参数优化和验证,模型有效再现了加密市场的核心“风格事实”:
- 非正态且带肥尾的对数收益分布(Fig.7)
- 时间尺度依赖的波动率分布(Fig.8)
- 交易量和收益的波动聚集特征(Fig.10,9)
- 价格自相关的快速衰减(Fig.9, 11-14),体现了市场无套利假设和记忆效应
多智能体强化学习框架通过动态调整代理策略,实现了对复杂市场异质性和非平稳性的自适应捕获,超越传统零智力代理模型的限制。报告充分讨论了模型的假设局限、算法实现细节及对真实市场场景的适配。
图表数据深入揭示了模型与实测数据的一致性和部分不足之处,指导未来对模型的改进方向:
- 增强尾部极端风险模型能力,捕捉跳跃扩散行为
- 引入更高频和多维市场动态数据
- 拓展策略空间丰富度,反映杠杆、衍生品等多样市场行为
- 考虑监管政策、宏观经济等外生冲击因素,增强模型现实解释力和适用范围
总体而言,报告展示了MARL方法在加密市场仿真中的巨大潜力,为学术界和实务界理解市场机制、促进风险管理及策略发展提供了先进工具和数据支持。
---
图表示例原文引用展示
- 图1(第3页)强化学习智能体决策流程示意图,揭示了智能体从市场状态 -> 选择动作 -> 交互环境 -> 获取奖励及新状态的基本循环。
- 图2(第7页)SYMBA系统架构图,彩显说明智能体双算法结构、订单簿撮合流程及市场价格的形成过程。
- 图3(第9页)不同智能体对加密资产基本面模拟轨迹与真实轨迹对比折线图。
- 图5(第17页)训练集与测试集对数收益分布对比,曲线高度贴合确认数据集划分科学合理。
- 图6(第18页)强化学习智能体与随机噪声代理收益对比,体现学习智能体优越表现。
- 图7-14(第20-24页)展示收益对数分布、波动率分布、自相关系数分布及均值,以及成交量自相关,均反映模型对真实市场统计特征的良好拟合与不足。
---
参考文献引用格式
报告参考了大量经典及前沿文献,涵盖加密金融资产特性、多代理建模、强化学习方法、市场微结构等领域,具有扎实的学术深度和广阔的文献支撑基础。文献编号已在报告总结正文中标注,便于追踪溯源。
---
总结
本报告系统阐述并验证了基于多智能体强化学习的SYMBA模型在加密货币市场建模的有效性与创新性。论文结构严谨,数据详实,方法先进,成果具有理论与实务双重价值。虽然存在一定简化假设和模型局限,但为理解高度复杂、波动剧烈的加密市场,提供了极具前瞻性的分析方向和实践工具,为后续研究奠定了坚实基础。
---
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25]