Nonconvex Game and Multi Agent Reinforcement Learning for Zonal Ancillary Markets
创建于 更新于
摘要
本报告基于非合作博弈理论,构建了多区辅助服务市场模型,将其转化为具有非凸可行域的广义纳什均衡游戏。提出了集成优化、Gauss-Seidel最优响应和多智能体深度强化学习(MARL)三种算法进行市场均衡计算。基于德奥市场真实数据实证显示,MARL方法虽需预训练但收敛最快且降低市场总成本,且市场耦合度提升可降低大区成本,但收益分配的公平性较差 [page::0][page::5][page::7][page::9]
速读内容
多区辅助服务市场模型构建及非凸广义纳什均衡分析 [page::0][page::3][page::4]
- 将辅助服务市场表述为多领导者单追随者的双层优化及广义纳什博弈,目标函数含三线性项,约束非凸。
- 采用惩罚形式转换博弈,证明了广义纳什均衡存在性,并验证了游戏的广义势函数结构。
- 提出将博弈问题转化为单层非线性规划,便于利用常规模型求解器计算均衡。
三种算法比较及实现细节 [page::5][page::6]
- 集成优化方法:基于MINOS求解器,视为全体生产者协调一致定价策略。
- Gauss-Seidel最优响应:各生产者轮流优化策略,体现非协调竞争,收敛性有理论保证。
- 多智能体深度强化学习(MARL):采用基于区域动作共享的actor-critic算法,模型无需求解精确均衡,适合分布式市场仿真。
MARL算法收敛性及效果验证 [page::7]

- MARL在多智能体环境下训练,奖励值稳定提升,显示策略收敛并适应竞争环境。
- MARL模拟结果代表现实中分散信息和策略调整。
市场运行成本及利润分配差异 [page::7]

| 算法类型 | 平均市场成本 | Gini指数(利润分配公平性) |
|-------|-------------|-------------------------|
| MARL(4RL) | 低 | 高(不公平) |
| MARL(8RL) | 略高于4RL | 更高(更不公平) |
| Gauss-Seidel最佳响应 | 高 | 较低(较公平) |
| 集成优化(势函数解) | 次高 | 较低 |
- 集成优化和最佳响应因限价机制导致成本较高,利润更均匀分配。
- MARL自由竞争导致个别生产者利润偏高,分配不均明显。
影响另类耦合度对成本影响的仿真研究 [page::8]

- 增加德国区出口限制显著降低德国区成本,奥地利区成本变化不大。
- 产能和边际价格结构使得小区无法显著通过出口限制获益。
- 结果与文献[24]采用更复杂经济模型的发现一致,显示多区市场耦合对成本优化的现实意义。
深度阅读
金融研究报告深度分析报告
---
1. 元数据与概览
报告标题:Nonconvex Game and Multi Agent Reinforcement Learning for Zonal Ancillary Markets
作者:Francesco Morri, Hélène Le Cadre, Pierre Gruet, Luce Brotcorne
发布时间:基于2024年数据,具体日期未给出
主题:基于非合作博弈理论和多智能体强化学习对多区域(分区)辅助服务市场的建模与分析,实证案例为德国和奥地利电力辅助市场。
核心论点:
本报告建立了一个多领导者单追随者的双层优化问题模型,将分区辅助市场问题转化为带有边界约束和非凸可行集的广义纳什博弈。通过数学上的理论推导证明了均衡的存在性和潜在博弈结构,提出了两种精确算法(综合优化和Gauss-Seidel最优响应)及基于多智能体深度强化学习(MARL)的模拟方法,并在德国-奥地利市场真实数据上比较了这三种方法的性能和结果。报告突出显示MARL在成本和收敛性上的优势,并揭示市场区域耦合的经济效应。[page::0,1,3,5,9]
---
2. 逐节深度解读
I. 引言与相关工作
- 关键论点:
- 电力无法大规模存储,需实时平衡供需,因此辅助服务市场(调整频率)需求日益重要。
- 欧洲不同市场分区在逐步市场化,尤其德国与奥地利共享市场竞价,需理解多区域耦合影响。
- 报告以非合作博弈为核心,提出多领导者单追随者的双层市场模型,结合MARL,具备灵活耦合模拟能力。
- 支撑证据:梳理了市场设计和战略竞价的相关文献,指出现有研究主要关注理论市场模型和单一战略竞价,强化学习对辅助市场的应用尚处于起步阶段。[page::0,1]
II. 非合作博弈模型建立
- 论点与假设:
- 生产商作为领导者,决策竞价策略以最大化收益。市场运营商作为追随者,根据竞价确定接受容量以最小化成本。
- 模型设定了生产商数量、区域数量、竞价数量,考虑了分区需求、出口限制及核心部分约束。
- 该设置形成多领导者单追随者的双层最优化问题,并转换为带约束的广义纳什博弈。
- 重要公式:
- 生产商的收益函数为竞价价格和接受容量的乘积总和。
- 市场运营商的目标是满足需求和约束的同时,最低支付总成本。约束涉及分区需求、出口通量、核心容量及投标完整性。
- 图示说明(图1):展示了两个市场区和生产商分布、需求及约束耦合结构,直观体现模型空间与约束的关系。[page::1,2]
III. KKT重构及单层纳什博弈形式
- 技术内容:
- 应用KKT条件,将市场运营商的优化问题转化为约束方程体系嵌入生产商的策略优化中,以实现双层问题的单层重写。
- 该转换引入了拉格朗日乘子,关联系统满足Slater条件,保证存在一个内点解。
- 产商间目标函数耦合通过市场运营商的反应策略体现,产生非凸三线性目标和复杂耦合约束,形成非凸的广义纳什游戏。
- 推理框架:
- 解释了边界约束和互斥条件,通过紧化拉格朗日乘子的维度与性质,以及引入局部和共享约束映射,构建统一可解的优化集合。
- 以紧凑符号形式提出最终的纳什博弈形式,定义多维决策变量向量及约束集。
- 模型复杂性:非凸性显著带来求解难度,设定后续需使用算法和理论保障均衡的存在。[page::2,3]
IV. 理论分析:存在性与潜在博弈结构
- 方法概述:
- 引入惩罚化广义纳什博弈,将部分复杂约束放入惩罚项以简化分析。证明惩罚博弈存在解且与原博弈等价。
- 通过价格机制将问题看作(N+1)玩家博弈(N个生产商及1个价格管理员),定义带边约束的纳什均衡。
- 关键假设:
- 决策集为多面体且紧致,目标函数及约束连续且可微。
- 存在满足严格不等式约束的可行点(Slater条件)。
- 主要结论:
- 基于上述条件和现有文献[18],证明存在广义纳什均衡。
- 该广义纳什博弈具备广义潜在博弈结构,存在潜在函数为所有玩家收益总和。
- 意义:潜在结构利于算法设计和理论稳定性分析,保证数值解的可行性和收敛性。[page::4]
V. 算法设计
- 集成优化算法:基于潜在函数,使用MINOS求解器(投影拉格朗日法)对整体非线性规划问题进行求解,视为全协调市场模型。
- Gauss-Seidel最佳响应算法:逐个生产商固定其他策略,优化自身策略迭代更新,非协调的逐步收敛过程,实现分布式策略优化。
- 多智能体深度强化学习(MARL):
- 采用多智能体actor-critic算法(基于[21]),各代理独立学习策略和价值函数,强化学习处理连续动作和状态空间,且分区内共享动作输入稳定训练。
- 奖励设计结合标准化区利润和竞价价格相较清算价格的惩罚项,平衡策略激励与约束遵守。
- MARL模式更接近实际市场竞价的动态和非协调竞争环境。
- 比较:集成优化代表协调策略,Gauss-Seidel模拟无通信反复调整,MARL进一步模拟现实环境中智能策略自主学习。算法复杂度与应用场景对比明确。[page::5,6]
VI. 实证分析与结果
- 数据来源:2024年1月至8月德国与奥地利辅助服务市场真实数据,设定限制条件(如最小投标容量5MW等),8个生产商参数设计使市场竞争态势合理。
- 收敛性分析:
- MARL训练回报随迭代提升并稳定,显示模型适应中等规模多智能体策略学习。
- 不同学习者数量下回报趋势和波动性如图2所示。
- 成本与公平性:
- MARL产生的社会成本明显低于集成优化和Gauss-Seidel,原因来源于学习策略导致的更低出清价格。
- Gini指数用于衡量利润分配公平性,显示MARL导致较高不平等(指数较高),传统算法公平度更优。
- 计算效率:
- MARL训练时间最长,但评估极快,适合多场景快速仿真。
- Gauss-Seidel评估慢,尤其迭代收敛耗时。
- 耦合强度影响:
- 赋予不同出口限制(区域间耦合强度)后,德国成本随出口限制增加而线性下降,奥地利成本基本稳定。解释为小区域生产商进入大区域促进竞争,降低后者成本。
- 该趋势与文献[24]相符,体现实证意义和模型适用性。
- 图表解读:
- 图2展示了MARL训练回报收敛性。
- 图3对比算法所产生的平均市场成本,MARL显著更低。
- 图4展示不同出口限制对应成本变化趋势。
- 表II、III敲定输入市场需求和生产商参数。
- 表IV、V分别报告利润分配公平性指标及算法时间性能。[page::6,7,8]
---
3. 图表深度解读
图1(页2)
- 描述:辅助市场两个区域示意图,包括区域内生产商分布,区域需求(Zonal Demand),核心部分和出口限制。箭头指示各约束项的方向和关系。
- 趋势与联系:清晰说明约束和竞价的交互结构,支持后续建模中需求约束、出口和核心部分约束的数学表达。帮助直观理解市场耦合及其对竞价影响。
- 局限与溯源:为抽象模型示意,未涵盖具体数据,仅辅助说明设定。[page::2]
图2(页7)
- 描述:MARL训练过程中每个智能体的平均回报对比,分德国与奥地利区域显示多个代理奖励曲线及波动区间。
- 解读:总体趋势为训练初始快速提升奖励,随后趋于平稳,表明算法收敛且学习到稳定策略。区域内各代理表现有差异,反映市场异质性和代理复杂交互性。
- 联系:证实MARL算法在实际市场仿真环境中的适用性和可用性。无理论均衡保证,且奖励非直接利润,但合理近似目标。
- 潜在限制:奖励定义影响平滑度,训练时长和数据多样性可能影响。

图3(页7)
- 描述:四个算法(4个及8个RL代理,最佳响应BR,和潜在函数POT)计算市场运行平均成本的柱状对比。
- 解读:MARL算法尤其4RL生产商版本平均成本最低,反映无协调机制的竞争驱动降低市场价格。BR和POT成本最高,因含市场协调成分。
- 联系:支持理论分析中,协调机制往往导致较高总成本,MARL虽无协调但更接近市场真实情况。
- 局限:成本随市场选择,单纯成本未体现其它经济指标。

图4(页8)
- 描述:展示对不同出口约束(德国和奥地利不同出口限制组合)下,8RL和4RL代理模拟的区域平均成本。X轴标明德国(G)和奥地利(A)出口限制强度(MW)组合。
- 解读:
- 8RL代理中,德国成本随出口限制上升显著下降,奥地利成本稳定或略增。
- 4RL代理几乎不受出口限制影响,成本相对平稳。
- 经济含义:出口限制影响较大区域(德国)成本,因其可利用小区剩余容量带来竞争压力降低价格。表明市场耦合对成本和竞争结构有实质影响。
- 引用对照:验证与文献[24]类似现象,强化结果合理性。

---
4. 估值分析
虽然报告并非典型的财务估值分析,但其市场成本和竞价策略的“价值”形成了一种间接估值。
- 算法层面估值:
- 集成优化算法对应“全协调均衡”,产生较高成本但稳定和公平,类似财务中的保守估值。
- Gauss-Seidel法代表分布式响应,收敛较慢,结果稳定但可能不够高效。
- MARL代表市场“真实生态”中的动态竞争,成本较低但竞争带来不公平性,价值波动较大。
- 依据假设:
- 加强耦合减少成本假设基于市场间剩余产能流动与竞价压力。
- MARL策略假设学习者为自利而非协调智能体,最大化长期奖励而非短期稳定。
- 结论:
- 不同“价值”对应不同市场设计目标,成本与公平权衡明显。
- MARL可视为具有实际适应性的估值方法,尤其适合复杂多主体市场仿真。
---
5. 风险因素评估
- 模型层面:
- 非凸性导致求解局部最优或无解风险,尽管存在理论均衡但计算上存在不确定性。
- MARL算法无理论均衡保障,可能出现策略不稳定或非理想竞价。
- 市场运作假设准确,输入参数(需求、容量等)变动风险。
- 经济层面:
- MARL产生的策略利润分配不均,可能引发财务风险或市场参与者不满,影响参与意愿。
- 强耦合带来成本下降,但潜在故障风险(如电网故障导致耦合变化)可能突显。
- 风险缓解:
- 理论保障(Slater条件、潜在博弈)降低解不存在风险。
- MARL训练及评估机制中,可设计奖励及惩罚,缓冲非理想策略。
- 动态耦合分析预示系统韧性,允许快速调整市场策略应对外部冲击。
---
6. 审慎视角与细微差别
- 理论与实证差异:
- 理论均衡存在不等于算法均衡收敛,Gauss-Seidel迭代慢、MARL无保证,实用价值依赖具体实现。
- MARL体现市场自治但易导致利润严重不平等,功能虽强但可能加剧市场垄断或操纵风险。
- 模型假设依赖:
- 核心约束及边界条件预设对均衡存在关键,实际场景中可能存在极端情况不符条件。
- 价格映射与行动映射的设计影响学习质量及策略表现,细节上缺乏灵活性可能限制策略多样性。
- 数据及场景限制:
- 仿真基于一定时期和区域数据,扩展其他区域或者更长时段需额外验证。
- 竞价序列长度及生产商数量固定,市场扩展性、参与者异质性或政策变更的影响未体现。
---
7. 结论性综合
本报告系统地构建了一个跨区域(德国-奥地利)辅助服务电力市场的多领导者单追随者双层博弈模型,将之重写为带有复杂非凸约束和潜在结构的广义纳什博弈,并从数学理论上证明了均衡存在与潜在博弈特性。三类算法实现市场均衡和竞价策略:集成优化提供协调一致的均衡,Gauss-Seidel模拟无协调互动,MARL捕捉市场中智能独立代理的动态竞争。其中,MARL算法展示出更快的收敛速率和更低的市场整体成本,表明智能自主竞价在现实复杂市场场景中的潜力,但伴随利润分配公平性下降的缺憾。
图1展现了市场多区域、生产商和约束的结构和耦合,图2实证了MARL的训练收敛性,图3定量比较了各算法的市场成本,清晰指出协调算法成本较高但公平性较优,而MARL成本最低但不均等,图4则深入展示了不同出口耦合强度对各区域市场成本的影响,特别是大区域从耦合增强中获益更显著,契合现实市场联通带来的经济效应。
综上,作者的整体立场强调采用非合作博弈结合深度强化学习,提供一个灵活可扩展的方法框架,不仅理论上保证均衡存在,也在实证上验证了其在多区域辅助电力市场设计和竞价策略中的有效性与创新性。[page::0,2,4,5,6,7,8,9]
---
参考文献
文内多项技术和方法直接基于以下关键文献,同时引用了相关市场设计、强化学习、潜在博弈理论及现实市场数据来源:
- [18] Pang and Scutari, “Nonconvex Games with Side Constraints,” SIAM J. Optim., 2011
- [19] Facchinei et al., “Decomposition algorithms for generalized potential games,” Comput. Optim. Appl., 2011
- [21] Lowe et al., “Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,” NeurIPS, 2017
- [24] Di Cosmo et al., “Welfare analysis of increased interconnection between France and Ireland,” Energy Systems, 2020
- 欧洲电力市场真实数据和辅助服务文献[22][1][4][5][7][8][15]等。
---
总体评价
该研究提出了高维非凸约束下的电力辅助市场多区域耦合模型,理论与算法俱备,融合最新MARL技术模拟复杂博弈行为,取得极具说服力的实证效果。报告严谨完整,涵盖数学理论、算法设计及实证检验,适合学术与应用领域深入参考。唯一不足是MARL策略盈利分配不均衡未深入解决,未来可结合机制设计优化公平性。整体贡献体现在多区域市场联合竞价博弈的建模创新和高效策略学习方案。