`

Benchmarking Pre-Trained Time Series Models for Electricity Price Forecasting

创建于 更新于

摘要

本报告系统性对比了多款预训练时间序列模型(TSFMs)与传统统计和机器学习模型对欧洲五国2024年电力日前市场价格的预测性能。结果显示,双季节分解的MSTL模型表现稳健,领先多数TSFM,Chronos Bolt和TimeMoE在不同误差指标上表现出较强竞争力。TSFMs虽然无需训练且易用,但在性能和解释性方面仍受限,表明统计模型在可解释性需求较高的场景依然更具优势[page::0][page::1][page::3][page::4][page::5].

速读内容


研究背景与意义 [page::0][page::1]

  • 随着生成式AI和预训练大型语言模型(LLMs)发展,时间序列基础模型(TSFMs)成为电力价格预测的新兴工具。

- 电力日前市场(DAA)每日中午定价,准确预测对交易决策意义重大。
  • 目前缺乏针对TSFMs在电力价格预测中的系统性性能比较。


选取模型与方法 [page::1][page::2]

  • 评测包含三类基线模型(Naive及其季节变种)、三类统计模型(MSTL、TBATS、MFLES)和三类机器学习模型(ElasticNet、KNN、SVR)。

- 六款代表性TSFMs包括Chronos Bolt、Chronos T5、Morai、TimesFM、Time-MoE及闭源的TimeGPT。
  • 采用RMSE、MAE、SMAPE三种常用误差指标,通过Diebold-Mariano统计检验对比模型显著性[page::1][page::2].


数据与实验设计 [page::3]

  • 使用德国、法国、荷兰、奥地利、比利时五国2023年底至2024年全年电力价格数据。

- 数据经过季节性和时区调整,确保24小时一致。
  • 统计与机器学习模型每日滚动训练,TSFMs无须训练直接预测。


预测结果与性能分析 [page::3][page::4]

  • 统计指标:MSTL在MAE、RMSE和绝大多数国家下表现最佳,特别是日季节性建模优势明显。

- TSFMs表现差异大,Chronos Bolt(Mini、Small、Base)及Time-MoE表现优于同类别其他模型。
  • 机器学习模型ElasticNet在三类中表现最佳,多参数TSFMs未能显著提升性能。

- SMAPE指标上,Time-MoE优于其他TSFM,表现出针对规模归一误差的优势。

统计显著性检验 [page::4][page::5]

  • 德国市场DM检验显示MSTL显著优于大多数TSFM及基线模型,Chronos Bolt优于Chronos T5且与ElasticNet表现相近。

- 各国DM检验结果相似,Chronos T5整体表现偏弱。
  • TSFM参数规模增加并不必然提升预测准确性。

- MSTL和ElasticNet在解释性和性能间权衡更优。

结论与未来方向 [page::5][page::6]

  • MSTL稳定性及优秀性能表明传统统计模型在电力价格预测中仍具领导地位。

- TSFMs虽有操作便利性优势,但其解释性不足限制应用场景。
  • 不同模型对性能指标敏感性不同,用户需根据实际需求选取。

- 未来工作可引入外生变量、拓展至其他地区市场及多配置参数测试。


深度阅读

极其详尽的金融研究报告解读分析报告


报告题目: Benchmarking Pre-Trained Time Series Models for Electricity Price Forecasting
作者: Timothée Hornek, Amir Sartip, Igor Tchappi, Gilbert Fridgen
发布机构: 卢森堡大学 SnT - Interdisciplinary Center for Security, Reliability and Trust
发布日期: 2024年
研究主题: 电力价格预测(Electricity Price Forecasting, EPF)领域,针对多种基于预训练时间序列模型(Pre-trained Time Series Foundation Models, TSFMs)的比较评测

---

1. 元数据与报告概览



本报告针对当前前沿的预训练时间序列模型在电力价格预测领域的整体表现进行了全面系统的基准测试(benchmarking)。作者选取了多个欧洲主要电力市场(德国、法国、荷兰、奥地利、比利时)2024年的日内电力日均价格数据,测试不同模型对未来一天24小时价格的预测能力。

核心论断为:
  • Chronos-Bolt和Time-MoE在TSFMs家族中表现较好,与传统统计模型与机器学习模型水平相当。

- 然而,经典的双季节性MSTL统计模型因其对日常及周季节性特征的捕捉能力,在所有国家和指标中表现最为稳定且优异,没有任何TSFM统计意义上显著超越它。
  • 报告未指定单个最佳TSFM模型,而是提示不同任务指标下模型表现差异。


该报告不仅对比了TSFMs,还包含了传统的基线模型(Naive及其季节性变体)、统计模型(MSTL、TBATS、MFLES)和机器学习模型(ElasticNet、KNN、SVR),从多维度呈现电价预测的算法性能全貌。[page::0,1]

---

2. 逐节深度解读



2.1 摘要与引言


摘要强调了电力价格预测的重要性及GenAI和LLMs预训练模型的兴起背景。TSFMs被描述为“通用预测器”,具备零训练(zero-shot)预测能力,适应多领域时间序列预测。但其在电力价格预测领域表现仍未明朗。本文以德国、法国、荷兰、奥地利、比利时为案例,针对六个代表性TSFM和传统模型进行了系统评测。

引言详细介绍了六种主要TSFM模型,包括Chronos系列(基于T5架构)、TimesFM、Time-MoE、Moirai、TimeGPT,涵盖不同架构特征(如sparse MoE)和数据训练量。强调这些模型权重公开可用,唯一TimeGPT为闭源API调用。对比文献回顾了多个领域中TSFM的应用及此前相关研究结果,如电力负荷预测、金融时序预测、数据插补任务等。[page::0]

2.2 研究方法(Section II)

  • 模型范围:四大模型类:基线模型(Naive及变体)、统计模型(MSTL、TBATS、MFLES)、机器学习模型(ElasticNetCV、KNN、SVR)、多版本TSFMs。

- 实验设定:考虑欧洲日内电力市场特性,所有模型每日进行一次预测,预测第二天24小时价格。基线模型及TSFM直接预测,统计/ML模型每日重新训练以纳入最新数据。
  • 误差指标:采用RMSE、MAE、SMAPE三种代表性指标进行多角度评价,揭示误差分布特征及对极端值的敏感细节。

- 统计检验:应用多变量扩展版Diebold-Mariano(DM)检验,将24小时误差合并为单一日误差,判断模型性能差异是否有统计意义,显著性水平取0.1。
  • 数据:使用2023年末至2024年间ENTSO-E平台公开的欧洲多国日内电力价格数据,对特殊日期时制(如夏令时切换)做数据校正,统一为24小时格式。对机器学习模型执行了quantile变换等预处理以提升性能。

- 模型参数:统计与ML模型训练窗口为过去12周,输入窗口为1周历史数据;TSFM一致使用1周输入数据,基线模型无需训练或调参。[page::1,2,3]

2.3 主要数据与参数化说明(Section III)

  • 综述数据来源、时制处理、预处理方法,确保模型间公平测试。

- 说明模型训练和预测条件设定,参数调优采用默认规则,统计模型自动捕获多季节性。
  • 针对ML模型采用交叉验证优化参数,尤其ElasticNet模型。[page::2,3]


2.4 结果与分析(Section IV)


2.4.1 误差指标表现

  • 表3详尽汇总模型在5国上的MAE、RMSE、SMAPE指标。

- 基线模型中,SeasonalNaiveDay在MAE和RMSE优于其他基线,Naive模型在SMAPE表现较好。
  • 统计模型中MSTL表现领先,唯一例外是法国SMAPE由TBATS稍优。

- ML模型中ElasticNet整体最优。
  • TSFM方面,Chronos Bolt和TimeMoE表现最佳,Chronos Bolt主导MAE与RMSE,TimeMoE在SMAPE上领先。Chronos T5表现明显逊色。

- 模型大小对性能影响不一,较大参数模型通常优于小版本,TimesFM为少数特例,大型模型表现更差。整体来看,MSTL及Chronos Bolt(Mini、Small、Base)在MAE/RMSE指标是国家层面上的首选,SMAPE偏好MSTL或TimeMoE。[page::3,4]

2.4.2 DM检验结果

  • Germany作为样板国家,热力图(图1)明确指出:MSTL统计模型显著优于所有Chronos T5版本,不显著优于ElasticNet。

- 多数TSFM未能显著胜过MSTL和ElasticNet,两者为最强统计及ML方法。Chronos Bolt(Small)表现强劲,部分国家优于ElasticNet。
  • 其他国家类似,Chronos T5整体表现弱;MSTL为跨国最佳选手;部分法国、奥地利测试显示Chronos Bolt变体胜过ElasticNet。

- 不同Chronos Bolt变体间性能无显著差异。多国DM测试附件进一步支持此结论。[page::4,5,8,9,10,11]

2.4.3 结果讨论

  • 季节性基线模型表现差异明示EPF中日季节性的重要性。

- MSTL因其灵活且稳健的多重季节性捕获能力,在所有国家及测试指标中均表现良好,表明精准统计模型依旧是强有力的选择。
  • TSFM中,Chronos Bolt较前代Chronos T5改善显著,尤其在减少MAE和RMSE方面效果最佳,而TimeMoE则更擅长SMAPE指标。

- 参数量小的TSFM版本(Chronos Bolt Mini, TimeMoE 50M)表现依然可观,适合计算资源有限情况。
  • 现实中模型选择除了性能排序,还应考虑解释性、易用性。TSFM以无需训练、方便推理著称,但缺乏透明度可能限制实务接受度。[page::4]


---

3. 图表深度解读



3.1 表1(模型概览)


展示三类传统模型的名称、使用库、主要参考。基线模型:Naive及其日/周季节性版本;统计模型:MSTL主要多季节分析,TBATS、MFLES提供更加复杂的季节与趋势捕捉;ML模型涵盖线性与非线性方法,带交叉验证控制。[page::1]

3.2 表2(TSFM模型参数及版本)


列出六个TSFM模型,命名、版本参数数量范围、权重发布日期。 Chronos Bolt为2024年11月最新,多个版本参数从9M至205M;Chronos T5、Morai、TimesFM、TimeMoE不同规模参数区别明显,权重公开;TimeGPT为闭源API接口访问,参数未知。提示TimeMoE采用稀疏激活,名义参数远多于实际激活参数,体现计算效率。[page::1,2]

3.3 表3(模型多国误差指标)


列出五国每个模型对应MAE、RMSE、SMAPE;强调:
  • MSTL绝大多数行列中最佳(加粗下划线);

- Chronos Bolt多版本表现优异,特别在MAE/RMSE上紧随或领先;
  • 统计模型整体优于大多数ML和基线模型;

- 时序GPT表现未显著优异;
  • 不同指标挑选不同顶尖模型,说明误差指标聚焦的差异性。

表中数据量大,风格为多对比表,能直观看出模型等级排序和稳健度。[page::3,4]

3.4 图1及附图(DM检验热力图分析)


图1以热力图形式展示德国模型两两对比的DM检验$p$值(色区由绿至红映射$p$值大小,黑色表示无显著差异)。热图突出表明:
  • MSTL在大多数对比中显著优于Chronos T5及部分TSFM;

- ElasticNet紧随其后,部分情况下优于某些TSFM;
  • 草绿色显示TSFM模型间部分优势,但无明确单一获胜者;

- 黑色区域说明多个模型间无显著性能差异,促进多模型共存观点。
附加国家热图(奥地利、比利时、法国、荷兰)均延续此特征,验证结果的跨地区一致性。[page::5,8,9,10,11]

---

4. 估值方法分析


本报告未涉及企业估值、股价目标价或相关财务指标分析,聚焦于时间序列模型在电力价格预测上的准确性评估和方法比较。因此无估值分析内容。

---

5. 风险因素评估



报告未明确展开风险因素章节,但可从内容间接辨识部分限制与隐忧:
  • 解释性缺失:TSFM可解释性不足,是实际采纳的潜在障碍,尤其在需透明决策环境。

- 模型多样性:复杂、众多TSFM模型及其参数规模增加,使得模型选择难度加剧,增加非专业人士采用门槛。
  • 地理与数据限制:研究仅涵盖五个欧洲市场,其他能源市场是否适用尚不明确。

- 单一参数配置限制:输入窗口时间固定为一周且只预测1天价格,缺少对更长期预测或不同输入长度的测试。
  • 缺少外部变量:未纳入外生变量 (如天气、需求、政策因素),或使模型表现受到限制。

- 时间同步调整:夏令时天数调整规则可能影响模型训练与预测的季节模式捕捉。

报告强调这些限制同时建议未来工作方向。[page::6]

---

6. 审慎视角与细微差别


  • 偏见风险:报告对TSFM表现有一定保留,避免过度宣传其普适性,刻意平衡传统强基线(MSTL)和前沿模型体现务实视角。

- 统计显著性使用:利用DM检验做性能判定,减少单纯指标排序导致的误判,提高结论可靠性。
  • 复杂度与实用性权衡:作者指出,参数越大不一定越优,也呼应成本-效益考量。

- 模型训练与零训练区分:TSFM作为零训练模型优点显著,但日常训练更新统计/ML模型展现不俗竞争力。
  • 细微表现差异:TSFM同系不同大小版本性能无显著差异,提示规模带来的性能提升存在阈值或中性效应。

- 内容内在一致性:报告结构严谨,数据、实验设置和结果分析均连贯,一致支撑主要论点,未见自我矛盾。

总结看,报告保持谨慎且客观,呈现全面且均衡观点。[page::4,5]

---

7. 结论性综合



本文为电力日内价格预测领域首次对多款预训练时间序列基础模型(TSFM)进行规模化基准测试,涉及欧洲五大电力市场2024年数据,以零训练能力与传统统计及机器学习方法对比。

主要发现:
  • 经典统计模型MSTL依旧是最稳健的全能冠军,能有效捕捉多重季节性,展现稳定优秀的误差表现及统计显著优势。

- TSFM方面,Chronos Bolt系列成为主流代表,优于Chronos T5版本,尤其Mini/Small/Base等中等规模均表现出色,适合不同资源约束应用。
  • TimeMoE模型在SMAPE指标下表现最佳,适配强调对误差百分比敏感的场景。

- 模型尺寸增大不保证误差降低,TimesFM大规模反而退步,提示规模与性能非线性关系。
  • 基线季节性模型(SeasonalNaiveDay)体现日季节性效应重要性,成为性能参考线。

- DM检验验证了不同模型间的统计性能差异,强调多种模型之间并非绝对优劣,而存显著性能分层。
  • TSFM无需训练优势明显,适合非关键、快速部署场景,但缺乏透明性限制其高风险及解释需求环境应用。


应用建议:
  • 产线应用时,若需求高性能及可解释性,优先考虑统计模型如MSTL。

- 对推理速度和便捷部署有高需求,则可考虑Chronos Bolt Mini或TimeMoE 50M版本。
  • 指标选取需根据实际任务权重(MAE、RMSE、SMAPE)决定不同模型优先级。


未来研究方向包括:
  • 纳入外生变量

- 扩展到更多地理区域
  • 深入探索不同输入窗口和预测范围的模型配置

- 探索模型解释性增强技术

---

8. 关键图表示例展示


  • 图1(DM检验德国热图):

热图以颜色梯度清晰展示模型两两显著性差异。MSTL显著优于大部分TSFM及基线,ElasticNet紧跟,Chronos Bolt表现良好。黑色格子显示无显著差异,突出多模型可以长期共存的事实。

  • 表3(误差指标比较):

详细呈现五国五类模型在MAE、RMSE、SMAPE三个指标上的精细性能,以粗体、下划线区分前3名,直观体现MSTL和Chronos Bolt的稳定强势。

---

总结



该报告构建了一个覆盖传统与前沿预训练时间序列模型的竞赛平台,证实预训练模型可达到与传统老牌统计/机器学习方法相媲美的性能,但未全面超越;同时强调经典统计方法的生命力、稳健性及易解释优势,提出选择模型时需结合误差指标和应用场景实际权衡。研究方法科学,数据丰富,分析细致,尤其对误差指标多维度考虑、DM显著性检验以及模型参数规模效应的洞察尤为突出。该报告对电力市场决策者及时间序列预测领域学术界均提供了极具价值的参考与启示。[page::0-11]

报告