`

ContestTrade: A Multi-Agent Trading System Based on Internal Contest Mechanism

创建于 更新于

摘要

本论文提出ContestTrade,一个基于多智能体内部竞赛机制的交易系统。系统由数据团队和研究团队组成,通过实时市场反馈持续评价和选择表现优异的代理,提升系统鲁棒性和适应性。实验证明该方法显著优于多种基线策略,实现52.8%的累计收益和3.12的夏普比率,同时有效控制最大回撤。关键机制包括零智商交易者对因子的量化估值及基于LightGBM的短期表现预测,有效管理LLM上下文限制,实现信息有效聚合和交易策略动态调整 [page::0][page::3][page::5][page::6]。

速读内容


ContestTrade架构与核心机制 [page::0][page::2][page::3]


  • 采用双层多智能体架构,数据团队负责将异构市场数据加工成文本因子;研究团队基于此因子进行多路径交易决策。

- 内部竞赛机制驱动每团队内部代理基于实时市场反馈动态评分和选择输出,提升系统对市场噪声的适应力和鲁棒性。
  • 研究团队采用Plan+ReAct框架集成金融工具进行深度研究,生成结构化交易信号(投资标的、操作建议、证据及局限说明)。


数据分析因子构建与量化选择机制 [page::3][page::4]


  • 利用零智商交易者模型对每个文本因子中的观察值打分,量化其固有预测价值,独立于策略复杂性。

- 设计因子组合优化问题,权衡因子价值与LLM上下文容量限制(最大上下文32k字,因子组合限定16k字)。
  • 采用LightGBM模型基于因子短期得分序列进行未来表现(风险调整分数)预测,实现动态因子筛选。


研究团队策略评价与资本分配 [page::4][page::5]

  • 构建混合绩效评分,结合历史表现指标与LLM评审团的信号合理性评估,提升策略质量判断。

- 同样通过LightGBM预测短期策略夏普比率,依据正值加权分配资金,形成风险调整优化组合。

实验结果与性能对比 [page::5][page::6]



| 模型 | 累计收益CR(%) | 夏普比SR | 最大回撤MDD(%) |
|-----------------|--------------|---------|----------------|
| CSI ALL Share | 4.42 | 0.46 | 13.75 |
| MACD | 2.69 | 0.10 | 10.65 |
| RSI&KDJ | 8.19 | 0.47 | 8.30 |
| LGBM | -25.94 | -1.30 | 34.17 |
| LSTM | 8.34 | 0.51 | 29.56 |
| A2C | 7.89 | 0.69 | 18.84 |
| PPO | 15.07 | 1.33 | 17.11 |
| MASS | -19.12 | -1.76 | 24.55 |
| ContestTrade(本) | 52.80 | 3.12| 12.41 |
  • ContestTrade表现显著优于传统指标、机器学习、深度学习及其他多智能体系统,收益与风险指标均处于领先水平。

- 内部竞赛机制效果得到验证,数据分析和研究团队竞赛分别实现Rank IC分别为0.054和0.079,ICIR分别为0.13和0.18,显示高预测质量。

消融实验验证关键组件贡献 [page::6]



| 配置 | CR (%) | SR | MDD (%) |
|-------------------------|---------|-------|---------|
| ContestTrade全模型 | 52.80 | 3.12 | 12.41 |
| 去除LLM评审 | 50.55 | 2.57 | 13.48 |
| 去除研究团队竞赛 | 32.83 | 1.78 | 16.70 |
| 去除数据分析团队竞赛 | 42.85 | 2.01 | 13.47 |
| 去除深度研究 | 43.75 | 2.08 | 20.55 |
| 去除所有核心机制 | 3.01 | 0.07 | 26.63 |
  • 各组成部分对整体性能均有显著贡献,特别是内部竞赛和深度研究能力,缺失任何一环均导致性能下降。


深度阅读

ContestTrade研究报告详尽分析



---

1. 元数据与概览


  • 标题:ContestTrade: A Multi-Agent Trading System Based on Internal Contest Mechanism

- 作者与机构:Li Zhao等,来自Stepfun与FinStep(baizuo@stepfun.com,baizuo@finstep.cn)
  • 日期:文中未明确给出具体日期,但引用文献涉及2025年,且实验时间段涵盖2025年初至中期,推测为2025年初或稍晚发布。

- 主题:基于大型语言模型(LLM)的多智能体系统,用于金融交易,重点介绍一个内部竞赛机制促进智能体动态自适应,从而提升交易系统对市场噪声的鲁棒性和整体表现。

核心论点
该报告提出一种两层团队架构的多智能体交易系统——ContestTrade,结合数据团队与研究团队,配合内部实时的竞争评估机制,持续筛选表现优异的智能体输出以生成交易信号。系统旨在解决LLM交易系统面对市场噪声敏感的问题,提升适应性和决策鲁棒性。实验结果显示,ContestTrade显著优于现有多智能体系统和传统量化策略,体现其竞争与协作共存的新范式。作者公开了代码库以促进复现。

---

2. 逐节深度解读



2.1 摘要与引言



报告指出,虽然大型语言模型在金融交易中显示出较强潜力,但其对市场噪声高度敏感导致表现不稳定。传统单智能体方法难以处理市场中的复杂时序依赖和信号冲突。多智能体系统借鉴投资机构的角色分工理念,但当前方法多采用固定数据管线,缺乏灵活适应市场转折的能力。现有基于LLM的智能体缺少深层次的量化分析能力,对复杂市场环境的处理有限。

解决方案
引入ContestTrade框架,融合“深度研究(Deep Research)”方法和内部竞赛机制,通过:
  • 赋予智能体利用专门金融工具的自主计划能力,提升信号品质;

- 启用以真实市场反馈驱动的实时评分和排名机制,仅采纳表现最佳个体输出;
  • 构建双团队架构,分别负责数据文本因子生成和交易信号决策。


此设计实现市场噪声下的兼具鲁棒性与高适应力的交易行为。[page::0]

---

2.2 相关工作



回顾了现有利用LLM的金融交易研究,涵盖文本因子提取(LLMFactor)、开源交易框架(FinGPT、FinRobot)、认知模拟(TradingGPT)、自反机制(SEP)、基于“人机交互”强化的AlphaGPT系列等。

挑战主要体现在智能体对市场剧烈波动的适应性,部分研究通过记忆模块(FinMem)、多级反思(FinAgent)提升单智能体鲁棒性。

多智能体交互架构方面,目前有HAD(基于多智能体语义分析)、TradingAgents(分析师与交易员角色分工)和FinCon(经理—分析师层级结构)提供了强协作基础。进一步,MASS框架强调规模效应与多智能体仿真,展现复杂市场动态洞见。

报告正是基于前沿成果,融合体系创新,突出规模、分工和竞争机制。[page::1]

---

2.3 系统架构



总体架构(见图1)



ContestTrade以两层管道流程为框架,模拟投资机构的操作逻辑:
  • 数据团队:处理多源市场数据,生成压缩且多样的文本因子;引入内部竞赛机制实时评分每个数据分析智能体,构建最优因子组合,输入研究团队。

- 研究团队:基于数据团队的因子,多个研究智能体并行展开深入交易研究,利用专用金融工具辅助,生成多条交易路径方案,再经由内部竞赛筛选合成最终交易信号。

此“多路径竞争”逻辑保证决策高度鲁棒,因为仅依赖最优智能体输出,滤除了噪声带来的无效信息。[page::2]

数据团队设计(图2)


  • 多个数据分析智能体并行工作,各自关注不同市场信息切片,规避单点瓶颈;

- 智能体每日生成聚焦点(例如“高盈利增长公司”)指导数据过滤;
  • 先粗筛数百条相关信息,再利用LLM能力深度阅读和总结,避免传统NLP工具,提高处理连贯度;

- 生成文本因子限制在4千token以内,通过上下文工程精准控制文本长度,适应LLM输入限制;
  • 多文本因子经过内部竞争评估,筛选出高价值者,形成汇总输入,传递至研究团队。[page::1][page::2]


---

2.4 研究团队设计(图3)


  • 由多个自主研究智能体组成,且各持有独特“交易信念”,通过LLM动态生成,保障策略多样性;

- 每个智能体采用Plan+ReAct流程(结合计划与动态行动),反复调用内置金融工具(如股票筛选、市场数据、新闻检索等)以获取信息,辅助推理;
  • 最终产出结构化交易信号,包括标的代码、买卖建议、证据列表和风险限制说明,确保信号不仅模糊决策,且有明确理由与假设支撑。[page::2][page::3]


---

2.5 内部竞赛机制



内部竞赛机制是报告的核心创新,通过三个阶段模型(Quantify-Predict-Allocate)实现对各智能体的动态评估与资源分配:
  • Quantify:基于历史表现对智能体进行统一打分;

- Predict:预测未来表现,强调短期动量特性,利用LightGBM模型完成预测;
  • Allocate:依预测结果分配资源,数据团队采用0-1背包模型选因子以控制上下文长度;研究团队根据预测夏普比率权重分配资本。


数据团队的竞赛致力于选择有限上下文中最优因子组合,权衡信息价值和上下文消耗。其最优上下文限制设置为16k token,研究团队保留余额用于交易决策。

研究团队竞赛侧重资本分配,结合量化绩效(如夏普率)与LLM评审的定性质量分,实现更加全面的表现评估。[page::3][page::4][page::5]

---

2.6 量化指标与算法关键点


  • 使用“零智交易者(Zero-Intelligence Trader)”模型对数据因子中每条“观察”语句打分,衡量原始信息的内在预测能力,无需外部分析。

- 预测阶段发现,短期内因子与策略表现具有显著动量,短窗口(因子m=5天,策略n=3-5天)相关性远大于长窗口,支撑短期适应性优化。
  • 限制因子组合长度以避免因超长上下文导致LLM推理能力下降,通过sigmoid模型表征LLM的决策能力随上下文长度的非线性下降。

- 研究团队引入LLM Judger评判信号的逻辑合理性和证据质量,结合标准绩效指标,形成混合评估,提升预测准确率。
  • LightGBM作为两阶段预测的核心模型,因其性能与抗过拟合能力被应用于量化指标的映射建模。[page::4]


---

2.7 实验设计


  • 采用真实A股市场数据(新闻、财报、市场行情等),训练测试严格时间隔离,2024年7月至12月为训练期,2025年1月至6月检验期,保证数据无预训练泄露。

- 以每日开盘价-收盘价交易,真实结算规则及手续费模型,确保实际可行性。
  • 对比基线涵盖传统规则指标(MACD,RSI&KDJ)、机器学习(LGBM),深度学习(LSTM)、深度强化学习(A2C、PPO)及当前多智能体系统(MASS)。

- LLM模型主要采用开源DeepSeek-V3,研究团队在关键生成环节切换至推理能力更强的DeepSeek-R1。
  • 评价指标分为策略性能指标(累计收益CR,夏普比SR,最大回撤MDD)和竞赛效率指标(Rank IC,ICIR)以衡量竞赛机制的筛选质量。[page::5]


---

3. 关键图表与数据解读



3.1 图1 — ContestTrade架构图



展示了从多源数据输入,经过数据团队处理至研究团队,最终输出交易信号的完整流程,同时突出两级竞赛机制的存在。图中清晰表达了信息流通过度和阶段性竞争评估节点,体现框架层次分明。[page::2]

3.2 图2 — 数据团队工作流程



详细描绘每个数据智能体的筛选、优先级生成、深度阅读及文本因子构建各阶段工作,强调并行处理和上下文长度控制的细节。此图辅助理解数据团队对海量信息的结构化压缩路径。[page::2]

3.3 图3 — 研究团队工作流程



揭示了研究智能体的Plan+ReAct循环,涵盖计划、工具调用、思考,及最终决策生成。具象化了智能体如何使用工具补充信息,支撑多样化交易信号生成。[page::2]

3.4 图4 — 组合净值曲线对比



显示ContestTrade相较MACD、RSI&KDJ、LGBM、LSTM、深度强化学习及MASS在2025年1月至7月区间的投资组合净值表现优势。ContestTrade不仅实现了显著超额回报,还在波动性较大时刻展现出更好的稳定性,净值曲线稳步上扬至1.6倍起伏明显低于其他策略。图视觉化地强化了报告对优越交易表现的论断。[page::5]

3.5 表2 — 策略表现数据比较



| 模型 | 累计收益CR(%) | 夏普比SR | 最大回撤MDD(%) |
|---------------------|---------------|----------|----------------|
| CSI ALL Share | 4.42 | 0.46 | 13.75 |
| MACD | 2.69 | 0.10 | 10.65 |
| RSI&KDJ | 8.19 | 0.47 | 8.30 |
| LGBM | -25.94 | -1.30 | 34.17 |
| LSTM | 8.34 | 0.51 | 29.56 |
| A2C | 7.89 | 0.69 | 18.84 |
| PPO | 15.07 | 1.33 | 17.11 |
| MASS | -19.12 | -1.76 | 24.55 |
| ContestTrade(本系统) | 52.80 | 3.12 | 12.41 |

这组数字清晰表明,ContestTrade以超过50%的累计收益和3.12的高夏普比大幅领先各基线方法,且最大回撤控制在12.41%以内,风险调控明显更优。[page::5]

3.6 表3 — 内部竞赛有效性指标



| 模块 | Rank IC | ICIR |
|-----------------------|---------|-------|
| 数据分析师竞赛 | 0.054 | 0.13 |
| 研究员竞赛 | 0.079 | 0.18 |

较高的Rank信息系数和信息比率表明竞赛机制精准识别高质量因子及信号,且持续性较好,证明了竞赛机制对信息噪声的有效过滤和交易策略提升的核心作用。[page::6]

3.7 表4 — 消融试验结果



| 配置 | CR(%) | SR | MDD(%) |
|-----------------------------|--------|-------|--------|
| ContestTrade全模型 | 52.80 | 3.12 | 12.41 |
| 去除LLM Judge | 50.55 | 2.57 | 13.48 |
| 去除研究员竞赛机制 | 32.83 | 1.78 | 16.70 |
| 去除数据分析师竞赛机制 | 42.85 | 2.01 | 13.47 |
| 去除深度研究(工具调用) | 43.75 | 2.08 | 20.55 |
| 全部去除(无竞赛与深度研究) | 3.01 | 0.07 | 26.63 |

消融结果突出竞赛机制在数据与研究层的核心价值,特别是研究层竞赛和深度研究能力显著提升策略表现。完全去除导致表现崩溃,验证了报告设计的整体必要性。[page::6]

---

4. 估值分析



该报告非财务公司分析类,故主要聚焦系统性能指标的定量评价和内部竞赛机制的数学模型分析,以反映框架的优化效率与风险调整能力,而不涉及传统公司估值模型,如DCF或PE倍数。

不过报告详细介绍和推导了系统因子选择的优化目标,结合LLM上下文限制采用了带有sigmoid衰减的最大化函数,提出实际操作中的0-1背包求解方法对因子组合进行最优裁剪,展示了严格数学模型对系统实际限制的考虑。

资本分配部分运用夏普比率加权启发式算法,兼顾风险和收益,均为较成熟且合理的实用方案,虽无详细敏感性分析,但方法论严谨。[page::3][page::4][page::5]

---

5. 风险因素评估



报告虽无专门章节讨论风险,但从文本中可归纳出以下风险考量:
  • 市场噪声与波动风险:市场本质上包含不可控噪声,可能致使模型判断偏差,文中通过竞赛机制及多智能体结构弥补该缺陷。

- 过拟合风险:LightGBM简化模型参数、时间隔离数据策略及短期动量假设均有助避免过拟合,但长期市场结构变化仍是潜在风险。
  • 上下文长度限制风险:LLM对于最大输入长度敏感,若上下文设计不佳会导致推理性能下降。竞赛机制通过sigmoid模型刻画该风险,优化因子选择。

- 模型更新与适应延迟:竞赛机制基于短期动量,可能存在对突发极端事件适应不及的风险。
  • 工具调用与数据质量风险:研究团队深度依赖外部金融工具和数据,若数据延迟或错误,将影响信号准确性。

- 系统复杂性风险:多智能体协同和竞赛机制提升系统复杂度,潜在运行维护难度和延迟增大。

对于上述风险,报告通过内置竞赛动态调整、保留上下文容量以及严格时间分割策略,已部分给出缓释方案,但未量化风险发生概率,仍需后续研究完善。[page::3][page::4][page::5]

---

6. 批判性视角与细微差别


  • 模型依赖及假设:预测因子表现依赖短期动量假设,虽然报告数据支持,但市场风格突变可能导致模型失效,未来适应性研究仍有空间。

- LLM能力限制:尽管使用DeepSeek系列模型,LLM解释及推理实际仍存在固有限制,特别是在超长上下文及快速市场变化下表现未知。
  • 竞争机制单一性:研究团队资本分配主要基于预测夏普率权重,未涉及多策略联动风险矩阵,存在多头策略集中度风险。

- 缺少跨市场验证:仅在A股市场验证,报告提及拓展未来计划,当前结果在其他市场或资产类别适用性尚待检验。
  • 消融实验虽全,但缺少对具体参数敏感性分析,比如竞赛周期长度、上下文阈值选取等,对实操影响未详细探讨。

- 因子生成的数据来源复杂,报告未详述数据质量控制及异常处理机制,这一环节对效果影响不可小觑。
  • 竞赛中LLM Judge评分具有一定主观性,尽管理由充分,但评判标准的可重复性与可靠性亟待明确。


总体而言,报告在现有研究基础上提出的多智能体非线性竞争架构颇具创新意义,实验设计严谨,论据充分,缺点主要来自现阶段多智能体与LLM能力的固有限制及未来拓展的适用性问题。[page::5][page::6]

---

7. 结论性综合



本研究报告系统且深入地介绍了ContestTrade——一个结合深度研究、多智能体分工和内部竞赛机制的金融交易框架。系统创新点主要包括:
  • 双团队架构:数据团队负责高效压缩海量市场数据生成文本因子;研究团队负责基于前者输出使用多样工具进行深度信息挖掘产生交易信号。

- 动态内部竞赛机制:以Quantify-Predict-Allocate模型,持续对各智能体表现进行量化评估与未来表现预测,实现精细化资源分配和产出筛选。
  • 深度研究工具融合:研究团队采用Plan+ReAct结构和多种金融工具支持,提高交易决策的合理性和信息利用率。

- 系统设计兼顾LLM上下文限制:通过设计带有sigmoid能力衰减的最优上下文容量,科学平衡信息量与模型推理能力。
  • 系列引入的创新指标与消融实验支撑:通过Rank IC/ICIR验证竞赛机制对提高因子及信号质量的核心作用,消融实验验证各模块不可或缺性。

- 实证表现亮眼:在真实A股市场测试中,ContestTrade实现52.8%累计收益、3.12夏普比及12.41%最大回撤,显著优于包括ERP、深度强化学习和现有多智能体模型,表现卓越且稳健。

图表清晰展示了系统在市场中的优异表现和竞赛机制在挑选高质量输入中的关键作用,为LLM与多智能体结合的金融交易提供了新范式。报告也科学分析了模型局限和未来扩展方向,体现严谨务实的研究态度。

总体而言,ContestTrade所展现的“内部竞赛+团队协同+深度工具融合”的多智能体模型,在复杂多变的金融市场中提供了高效、鲁棒且解释性强的决策框架,具有显著的理论创新和实际应用价值。[page::0-6]

---

总结小结与关键洞察


  • 创新视角:首次将内部实时竞赛机制引入多智能体LLM交易系统,形成数据-研究两层筛选闭环。

- 系统设计:紧扣LLM上下文限制,通过数学模型支撑最优因子组合选取,兼顾精度与效率。
  • 金融工具赋能:深度研究工具调用带来了更丰富的信息维度与推理能力。

- 实证结果:数学和实证均支持竞赛机制和系统架构带来的巨幅性能提升,尤其夏普比率提升两倍以上体现了风险调整后的显著优势。
  • 未来潜力:适配不同市场、丰富智能体类型和更深入的策略协同为未来工作重点。


此报告为LLM驱动的算法交易领域提供了可借鉴的框架和方法论,对相关学术与产业方向均有重要指导意义。

---

(全文引用页码均已标注,详见正文各段末尾。)

报告