`

HARd to Beat: The Overlooked Impact of Rolling Windows in the Era of Machine Learning

创建于 更新于

摘要

本报告基于1,445只股票的高频数据,深入分析了传统线性HAR模型与机器学习(ML)模型在实现波动率预测中的表现差异,强调了HAR模型在训练窗口和重估频率选择上的敏感性。研究发现,经过精心拟合的HAR模型在预测准确性和计算效率上均优于多种机器学习方法,尤其在仅使用历史实现波动率和VIX指标时表现最优。该结论不仅质疑了ML模型的普适优势,也为未来波动率预测提供了实用基线和方法指导 [page::0][page::1][page::3][page::20][page::21]。

速读内容

  • HAR模型性能高度依赖于拟合方案的选择,特别是训练窗口大小和模型重估频率。每日重估(stride=1)和较长训练窗口(约2.5至4年)能显著提升预测准确性。重估频率的影响远大于训练窗口长度,低频重估会显著降低性能。该发现通过对1,445只股票的实证检验及热力图清晰展示(见Figure 1)[page::1][page::3]。

  • 研究中对HAR模型进行了普通最小二乘(OLS)和加权最小二乘(WLS)两种估计方法的对比,后者在捕捉尾部风险和非对称性方面表现更优,提升了模型的预测能力[page::7][page::16]。

- 采用广泛的机器学习模型比较(包括lasso、随机森林、梯度提升树、前馈神经网络等),并引入了100阶滞后实现波动率特征作为输入,覆盖2016-2023年长时段数据,但ML模型整体未能超越细致拟合的HAR模型[page::8][page::9][page::11][page::16][page::17]。
  • HAR-VIX模型,在既有的HAR基础上加入市场波动率指数(VIX)作为额外预测变量,普遍显著提升预测效果,特别是非合并估计模型中体现明显,表明市场整体信息对个股波动率预测有较大增益[page::7][page::16][page::19]。

- ML模型在经济效用指标(如实现效用RU,考虑交易成本后效用)上的表现亦不及HAR模型,其中WLS估计的HAR模型尤其优异,反映在投资者愿付出更高的“信息价值”以获取该模型预测[page::15][page::18][page::20][page::21]。
  • 计算效率是ML模型滚动重估的关键瓶颈。HAR模型因结构简洁,可高频重估且计算成本低。ML模型若以相同滚动窗口标准实施,计算负担将大幅增加(约460倍),实际应用存在较大挑战[page::11][page::12]。

- 紧抓ML模型超参数调优策略,选用静态训练窗口划分(训练64%、验证13%、测试23%),以提升可行性和效率。尽管如此,优化后的ML模型未表现出超越HAR的优势,证实HAR模型的稳健与强基准地位[page::11][page::13][page::37][page::38]。
  • 除全市场分析外,报告附录对DJIA与Nasdaq-100组成股分别测试,结论支持HAR模型优越性,说明研究结果具备经济实用性和鲁棒性[page::6][page::27][page::32]。

- 研究强调“拟合方案”的细节对性能具有决定性影响,部分前人ML优越论述可能因HAR模型设定不合理(低频重估、较短训练窗口)而误判,提出未来研究中需严谨设计拟合策略以杜绝评估偏差[page::4][page::12][page::16][page::17]。
  • 量化策略方面,本报告未涉及复杂多因子构建或组合构建,核心在于通过合理滚动窗口和重估频率优化传统HAR模型,强化其在现代机器学习时代的基准价值[page::0][page::1][page::11]。

深度阅读

深度解析报告:《HARd to Beat: The Overlooked Impact of Rolling Windows in the Era of Machine Learning》



---

1. 元数据与概览



报告标题:HARd to Beat: The Overlooked Impact of Rolling Windows in the Era of Machine Learning
作者:Francesco Audrino、Jonathan Chassot
机构:瑞士圣加伦大学(University of St.Gallen)
主题:本报告聚焦于金融领域中“已实现波动率”(Realized Volatility, RV)的预测,具体比较了异质自回归(Heterogeneous Autoregressive, HAR)模型和多种机器学习(ML)方法在庞大股票数据集上的表现,并重点探讨训练窗口长度与模型重估频率(滚动窗口方案)对 HAR 模型预测能力的影响。
核心论点
  • 正确配置的 HAR 模型(尤其是在滚动窗口估计和频繁重估的情形下)在波动率预测上,表现优于一系列机器学习模型,即使这些机器学习模型经过充分的超参数优化。

- HAR 模型不仅预测性能优秀,而且模型简单,计算成本低,且易于解释。
  • 机器学习模型未必能在有限且特定信息集(RV及VIX)上超越 HAR 模型。

- 滚动窗口中训练窗口大小和重估频率是影响 HAR 模型预测性能的关键因素。
  • 本研究重申 HAR 模型作为现实中波动率预测的强基准,同时也揭示了机器学习模型在应用中存在的局限性。


关键词:预测实践,HAR,机器学习,已实现波动率,波动率预测。[page::0]

---

2. 逐节深度解读



2.1 引言



本章强调了已实现波动率预测在金融风险管理、衍生品定价与资产组合优化中的关键作用。HAR模型由Corsi(2009)提出,通过对日、周、月三个时间层级波动率的加权平均预测下一日波动率,凭借简单结构和优异性能,成为主流基准模型。随着机器学习技术崛起,学界推出多种ML方法,理论上能捕捉数据的非线性和复杂模式,有报道显示ML在此问题上具潜力但结论并非一边倒。

本报告强调,HAR模型参数选择尤其是滚动窗口估计参数(训练窗口大小与重估频率)对预测性能影响巨大。Figure 1显示,HAR日常重估能显著提升预测准确度,重估频率降低导致性能下降明显,训练窗口增大通常减少误差,但计算成本也随之增加。该方法优于采用更长重估间隔和短训练窗口的HAR设定,不同研究关于ML优越性的分歧可能根源于此。[page::1]

2.2 相关文献



回顾波动率预测领域所用模型,聚焦使用HAR作为基准的ML研究。Audrino et al.(2016, 2020)利用lasso算法,证明若HAR是数据生成过程,lasso能渐近恢复其滞后结构;实证中二者预测准确度相当,但在滞后结构上有差异。Liu et al.(2018)验证RNN在小样本中优于HAR,但大样本时HAR表现更佳。Qiu(2021)在比特币数据上Find SVR优于HAR。Zhang et al.(2023)与Christensen et al.(2023)分别考察多种ML模型与HAR对比,发现ML在扩充信息集(含高频数据、财务指标、宏观变量)时表现优于HAR,但信息集限制时两者无显著差异。[page::2][page::3][page::4]

2.3 数据说明


  • 已实现波动率(RV)定义:基于对价格过程的随机模型,利用高频5分钟内对数收益平方和的对数形式估算日内波动率,符合文献建议的较优估计方法。

- 样本与范围:选取CRSP数据库中与NYSE TAQ数据可匹配的6061只美股,最终聚焦于持久上市且高流动性的1445只股票(包括27只道琼斯工业平均指数成分股,69只纳斯达克100指数成分股)。
  • 数据涵盖2015至2023年部分时间,较先前研究的股票样本规模显著扩大,增强研究的代表性和结果稳健性。[page::5][page::6]


2.4 方法论



2.4.1 HAR模型及HAR-VIX扩展


  • HAR模型原理:基于对日、周(月)期RV的线性组合,捕捉不同频率波动率动态。公式:


\[
\mathrm{RV}{i,t+1}^{(d)}=c+\beta^{(d)}\mathrm{RV}{i,t}^{(d)}+\beta^{(w)}\mathrm{RV}{i,t}^{(w)}+\beta^{(m)}\mathrm{RV}{i,t}^{(m)}+\varepsilon{i,t+1}
\]
  • 扩展HAR-VIX:引入CBOE波动指数(VIX)作为额外市场信息,有力提升预测精度。


\[
\mathrm{RV}
{i,t+1}^{(d)}=c+\beta^{(d)}\mathrm{RV}{i,t}^{(d)}+\beta^{(w)}\mathrm{RV}{i,t}^{(w)}+\beta^{(m)}\mathrm{RV}{i,t}^{(m)}+\beta^{(v)}\mathrm{VIX}{t}+\varepsilon_{i,t+1}
\]
  • 估计方法包括OLS与加权最小二乘(WLS),单只股票估计及横截面池化估计等多种规格。[page::7][page::8]


2.4.2 机器学习模型概要


  • Lasso(线性模型带L1正则,自动进行变量选择,适用于高维数据),曾被多篇文献用于RV预测,表现竞争力强。

- 随机森林(RF):基于多棵决策树的Bagging,减少方差,提升泛化能力。文献显示RF在信息集丰富时能超越HAR,但在有限信息集表现未必更好。
  • 梯度提升树(GBT):顺序建树,逐步纠正残差,提升建模能力。同RF类似,依赖信息集扩充。

- 前馈神经网络(FFNN):多层感知机,具备拟合复杂函数的理论能力。实证中对高频内日数据表现好,但对HAR设计的日波动率预测结果不一。[page::8][page::9][page::10]

2.4.3 估计与训练设计


  • ML模型采用静态训练窗口切分(2016-2020训练,2021验证,2022-2023测试),以降低超参数调优高计算成本。

- HAR模型采用滚动窗口估计(约630天训练长度,步长一天),着力在高重估频率下最大化预测性能,具体参数选取依据Figure 1热图分析。
  • 未扩充信息集,除加入100阶RV滞后以给ML模型捕获长期依赖能力的机会。

- 强调滚动窗口中重估频率选取对HAR模型性能的决定性影响,ML模型的滚动重估计算成本过高,限制了其实践有效性。[page::11][page::12][page::13]

2.5 评估指标


  • 统计损失指标:均方误差(MSE)和QLIKE(对预测偏差的指数加权,强调尾部风险),采用模型置信集(MCS)方法,评估模型间统计显著性及性能覆盖率。

- 经济效用指标:基于Bollerslev et al. (2018)的实用效用框架,模拟投资者风险调节资产组合策略,计算基于预测的预期效用及含交易成本场景下的效用指标,直接验证预测对投资带来的经济价值。[page::14][page::15]

---

3. 关键图表深度解读



3.1 Figure 1(训练窗口大小与重估频率对HAR预测误差的影响)


  • 描述:图上半部分是训练窗口大小(x轴)与重估频率(stride,y轴)的热力图,颜色深浅反映RMSE水平,深色表示误差大;底部为stride=1时RMSE与窗口长度关系的截面分析。图中叠加了过去多篇文献所用的HAR拟合参数位置以示对比。

- 解读
- 较短的重估间隔(即高频重估,stride=1)显著降低预测误差,说明频繁重估使模型更适应最新数据变化,提升准确度。
- 训练窗口大小对预测误差影响次于重估频率,但仍显著,最佳窗口约在2.5年至4年(对应400-800天)左右。
- 早期文献多采用的宽泛低频重估方案落在高RMSE区域,可能导致HAR表现不佳,给ML赢得优势。
- 反映的是效率与计算成本的折中:高频重估计算更昂贵,但线性HAR低成本特性使其可行。
  • 结论:本文HAR模型使用的滚动窗口与每日重估即处于热地图“低误差区域”,极大提升了模型表现,是该报告得出HAR难以被ML超越的基础。

[page::3][page::12]

3.2 Figure 2(模型累计平方误差差异,基准为HAR-VIX OLS)


  • 描述:展示所有模型相对HAR-VIX OLS的累计平方误差差异曲线,绘制时间跨度为2022-2023年,区分是否加入VIX信息。

- 解读
- HAR各模型均从引入VIX中受益,误差差异曲线明显低于无VIX版本,显示VIX为有效增强特征。
- ML模型的有无VIX曲线开始时趋于接近甚至优于HAR-VIX,但时间推移后误差优势逐渐消失甚至逆转,表现出一定的时间衰退趋势。
- HAR模型优势稳定贯穿整个测试期,说明其预测能力坚实且时间鲁棒。
  • 结论:图表直观支撑HAR-VIX模型稳定优越,且加入VIX信息对改善波动率预测具实质贡献。

[page::22]

---

4. 估值分析



本报告无传统估值部分,聚焦于预测模型性能比较,故此略。报告强调模型拟合方式(尤其滚动窗口及重估频率)对预测准确性的决定性影响,间接影响其金融工具定价和风险管理能力。

---

5. 风险因素评估



报告未专设风险章节,但间接指明以下风险因素:
  • 拟合方案选择风险:若训练窗口或步长选取不当,HAR性能显著下降,导致错误判断模型效果。

- 计算成本风险:ML模型滚动窗口训练计算时间庞大,限制其实时性与执行效率。
  • 模型泛化风险:未扩充信息集限制模型捕捉更丰富的波动率驱动因素,可能低估实际复杂性。

- 评估指标兼容性风险:不同损失函数(MSE、QLIKE)对应不同关注点,若估计方法不匹配可能导致结果偏差。
报告中无详细风险缓释措施,但通过选择合适滚动窗口、频繁重估以及包含VIX,实质减少了上述风险。[page::1][page::11][page::14][page::21]

---

6. 批判性视角与细微差别


  • 报告在设计上固守仅使用RV及VIX的狭窄信息集,这有利于消除外部变量引入的噪声与过拟合,但也限制了ML模型发挥复杂非线性及多变量交互优势的空间,因此得出的ML不超越HAR的结论仅限于该设定。

- 超参数调优虽细致,但非专注“极致”优化,部分ML模型表现可能受限,且ML模型无法采用滚动窗口估计,这一设计限制来自计算成本但也造成了评估上的一致性问题。
  • HAR模型重估频率的高敏感性揭示以往文献结论的不一致性根源,显示部分先前研究低估HAR的潜力。

- 结果对重要指数(DJIA和NASDAQ100)子样本同样稳健,增强了结论的广泛适用性和现实相关性。

---

7. 结论性综合



本报告通过对遍及1,445只美国主流股票的实证研究,明确展示了HAR模型在已实现波动率预测领域的坚实地位,尤其是在采用高频滚动重估(步长为1日)及训练窗口设定在2.5-4年时,HAR表现优于包括lasso、随机森林、梯度提升树和前馈神经网络在内的多种ML模型。具体发现包括:
  • 滚动窗口估计关键性:HAR预测性能对训练长度和重估频率高度敏感,尤其是持续每日重估,显著提升模型准确度(Figure 1)。

- ML模型受限于信息集及计算约束:本研究限定信息集为RV及VIX,且采用静态训练窗口减少计算负担,这导致多种ML模型未能系统性超越HAR。
  • VIX作为有效辅助变量:HAR与ML模型均因加入VIX而提升性能,但HAR模型受益更显著,强化了HAR的预测能力。

- 实现经济价值:基于已实现效用的分析表明,HAR模型预测结果带来的经济效用明显高于ML对比模型,包括未计入和计入交易成本两种情景。
  • 对前沿文献看法的修正:该研究通过精确拟合与高频重估揭示以往得出“ML优于HAR”结论的拟合方案不当及采样策略可能导致的偏差,重新确立HAR作为强基准的地位。


综上,报告不仅重申HAR模型在日波动率预测中的稳健性和实用价值,还提出了标准化高频重估回归的建议,强调机器学习方法在窄信息集环境下的实用局限,对未来研究及金融实务中模型选择与参数设定提供了详尽指导意义。[page::0][page::1][page::3][page::7][page::13][page::16][page::18][page::20][page::22]

---

附录重要表格说明(节选)


  • Table 1(第4页):总结主要文献HAR模型基线拟合方案,明确不同研究采用的训练窗口长度与重估频率,映射其影响模型表现的内在逻辑。

- Table 2(第12页):模型训练耗时对比,突出HAR模型滚动估计的低计算复杂度与ML模型静态估计高计算成本之间的悬殊差异,强调实际应用考量。
  • Table 3-7(第16-21页):通过MCS模型置信集及统计与经济评价指标,系统比较HAR(含HAR-VIX)与ML模型在全样本数据上的表现,实证证明HAR-WLS最优,ML次之并普遍较弱。

- Appendix Figures & Tables(第26页及之后):补充展示扩展样本(道琼斯工业平均指数、纳斯达克100)结果,确保结论适用性和稳定性。

---

总结



本篇报告通过跨越1445只股票的庞大数据集,严谨实证评估了经典HAR模型及其基于滚动窗口的拟合策略相较于当前热门机器学习方法在已实现波动率预测中的表现,发现HAR模型只要拟合得当(特别是训练窗口够长、每日重估),在统计预测精度和投资经济效用两方面均难被ML模型超越。报告凸显了拟合方法选择的核心作用,对金融领域使用机器学习作波动率预测提出了务实且具有指导性的同时,对于ML方法的盲目应用发出审慎警示。整体内容详尽、方法严密、数据丰富,作为机器学习与经济计量融合领域的高水平研究,具有重要参考与启发价值。

报告