股指波动率预测:舆情分析、深度学习能否战胜传统计量模型?
创建于 更新于
摘要
本报告基于上证50ETF的价量数据和舆情数据,采用多元回归、GARCH和LSTM三类模型,系统研究股指波动率的预测能力。结果显示,LSTM模型整体表现最佳,周度预测正确率达70.73%,优于传统计量模型。舆情数据本身对波动率具有一定预测能力,但对价量数据的增益有限,主要在样本外提升模型稳健性。各模型在样本外未见明显衰减,且预测准确率随预测周期拉长而下降。[page::0][page::4][page::6][page::10][page::12][page::14][page::18][page::22][page::28][page::29]
速读内容
- 模型框架与数据源介绍 [page::0][page::4][page::5]:
- 利用上证50ETF的20个价量因子(包括开盘价、成交量、偏度等)和舆情数据(发帖数、阅读数、情绪分等)构建预测模型。
- 目标为预测未来1日及5日的已实现波动率,采用滚动回归框架模拟真实预测环境。
- 多元回归模型(OLS、Lasso、Ridge)分析 [page::7][page::9][page::10][page::11][page::12]:
- Lasso因可产生稀疏解,具有剔除共线性强变量的能力,表现优于OLS和Ridge。
- Lasso周度预测胜率约63%,日度预测正确率约64%,不同回看周期影响较小。

- 模型样本外表现未见衰减,胜率0.68左右。

- GARCH模型表现 [page::13][page::14][page::15][page::16][page::17]:
- GARCH整体预测准确度高于多元回归,短回看周期(10天)胜率高达80%以上,长期胜率约62%。

- 样本外数据上,指标稳健,周度样本外胜率约69%,日度样本外胜率略低些但接近。

- LSTM模型表现及原理 [page::17][page::18][page::19][page::20][page::21]:
- LSTM引入遗忘门、输入门和输出门,改进传统RNN解决梯度消失问题,适合处理长时序依赖。
- 周度预测胜率达到70.73%,显著优于Lasso回归的63.06%。

- 日度LSTM预测表现略逊于回归模型,但整体预测准确率依然较高。
- 舆情分析与融入模型效果 [page::21][page::22][page::23][page::24][page::25]:
- 舆情数据对波动率具有一定预测能力,情绪指标与波动率呈正相关。

- 舆情数据与价量数据相关性较低,二者结合可能提升模型表现,但存在内部多重共线性须用Lasso处理。

- 舆情数据对多元回归及LSTM模型的增强效果分析 [page::26][page::27][page::28]:
- 多元回归补充舆情数据后样本外胜率最高可达70%以上,但样本内无明显提升。

- LSTM补充舆情数据后样本外预测准确率提升约2%,表现更为稳健。

- 样本内外对比及结论 [page::28][page::29]:
- 各模型样本外表现未见明显衰减,甚至波动平稳时样本外表现略优。
- 预测精度随预测周期增长而有所下降,表明模型更适合短期波动率预测。
- LSTM模型表现最佳,舆情数据主要提升模型稳健性,无法显著超越价量数据模型。[page::29]
深度阅读
深度分析报告:《股指波动率预测:舆情分析、深度学习能否战胜传统计量模型?》
---
一、报告元数据与概览
- 报告标题:股指波动率预测:舆情分析、深度学习能否战胜传统计量模型?
- 作者:王冬黎(高级分析师,金融工程)
- 发布机构:上海东证期货有限公司,东证衍生品研究院
- 发布日期:2022年12月15日
- 主题:本报告聚焦于中国股指波动率的预测问题,主要围绕不同预测模型的效果比较,特别是引入舆情数据和深度学习模型(LSTM)对比传统计量模型(OLS、多元回归、GARCH),以评估新兴技术能否提升波动率预测准确率。
核心论点:
- LSTM模型表现优于传统多元回归和GARCH在预测准确率上,周度预测最高正确率达到70.73%。
- 舆情数据本身存在一定预测能力,但作为价量数据的补充并未显著提升模型预测性能,样本外表现略有提升。
- 模型预测性能在样本外未出现明显衰减,具备良好的稳健性。
- 预测性能随着预测周期的拉长呈下降趋势,符合波动率预测的直觉。
---
二、章节深度解读
1、研究背景
报告指出波动率作为期权定价和风险管理核心变量,其预测具有极高学术与实务价值。传统基于隐含波动率的方法受到中国期权市场发展不充分和非理性交易行为的影响,可靠性受限。报告采用基于历史价量数据和舆情数据的模型,优点在于数据相对平稳、便于建模。为防止过拟合,采用样本内训练和样本外验证策略,保证模型泛化能力。
关键假设:
- 波动率数据相较价格序列更平稳(通过ADF单位根检验确认);
- 历史数据的时序性对未来仍具有预测价值。
2、数据
价量数据
使用上证50ETF的开盘价、最高价、收盘价、成交量等20个价量因子,并结合其多日均值、偏度、峰度等统计特征增加时间序列信息。
舆情数据
基于某财经网站股吧评论,包括发帖数量、阅读量、评论量及其情绪评分,后者通过中文语义库SnowNLP基于贝叶斯模型进行情感分类,评分范围在0-1之间,暴露舆情积极消极程度。
已实现波动率计算
计算5分钟分辨率对数收益率平方和估算每日已实现波动率,该方法无模型假设,反映真实波动率走势。
3、回测框架
采用滚动窗口回归方式,模拟真实预测环境:以回看窗口N个交易日训练模型,预测第T日之后k日波动率,逐步前移窗口进行动态验证。周度预测需对价量数据进行5日移动平均处理。各模型均采用滚动回归方式统一评价。
4、多元回归
模型介绍
- OLS:普通最小二乘法,最小化残差平方和,需满足数据无多重共线性及样本数大于变量数;
- Lasso:在OLS基础上加入L1范数惩罚,促使部分参数稀疏为零,有效剔除冗余变量,缓解多重共线性与过拟合;
- Ridge:在OLS基础上加入L2范数惩罚,通过提高矩阵条件数保证逆矩阵存在,但估计偏倚有所增加。
对于样本量不足导致矩阵不可逆问题,采用伪逆法处理。
结果解读
- 图表5显示,三种模型均能较好拟合波动率走势,OLS和Ridge模型在某些时段出现负值预测,说明受变量共线性影响较大。Lasso表现稳健,无负值异常。
- 综合误差指标(MAE、MSE、RMSE)和胜率(波动率方向预测准确率)来看,Lasso回归表现最佳,5日预测胜率63.06%,OLS和Ridge略低。
- 不同回看周期结果显示OLS敏感性较强,短周期最高胜率达71.07%;Lasso与Ridge随回看周期增长结果稳定,Lasso明显优于Ridge。
- 日度预测准确率略优于周度预测,OLS和Ridge均超过60%。
- 预测期越长,误差指标恶化,预测能力下降明显,符合金融时序预测特征。
5、GARCH模型
模型介绍
GARCH考虑时间序列异方差的自回归特性,适合长期记忆性质的金融波动率建模。
公式:\(\sigmat^2 = \omega + \sum{i=1}^p \alphai \varepsilon^2{t-i} + \sum{j=1}^q \betaj \sigma^2_{t-j}\)
结果分析
- 图表13反映GARCH模型拟合真实波动率较好,表现优于多元回归。
- 短回看周期(10天)预测准确度高达80%以上,随着周期加长,准确率稳定在62%左右。
- 与多元回归不同,GARCH日度预测准确率低于周度预测3%-7%。
- 预测周期拉长导致误差指标恶化,但胜率变化不显著。
- 样本外测试表现保持,回看周期越短准确率越高,250天回看周期胜率稳定约68%。
6、LSTM模型
模型介绍
基于RNN改进的LSTM通过遗忘门、输入门、输出门机制,解决长序列中梯度消失爆炸问题,具备捕获长期依赖关系的优势。
结果分析
- LSTM周度预测准确率达70.73%,相较表现最优秀的Lasso提升约12.15%。
- 各项误差指标均优于多元回归模型。
- 日度预测准确率小幅高于多元回归,但略低于周度预测。
- 样本外表现维持稳定,略有5%胜率下降,可接受。
- 样本外日度预测胜率高于周度,表明模型对近期预测能力更强。
7、舆情分析
模型及数据
- 利用股吧评论数据,收集帖子阅读量、评论量,应用SnowNLP进行中文情绪评分。
- 情绪评分范围0(极消极)到1(极积极),但存在行业专用“俚语”识别困难。
- 统计每日发帖量、评论数、总情绪得分等7个情绪相关因子。
相关性与预测效果
- 波动率与舆情情绪指数(5日均线)呈现较明显正相关性,波动剧烈时舆情指标震荡更强(过度反应现象)。
- 舆情数据本身预测胜率可达63%,超过50%基线,具备一定信息价值。
- 样本外表现实则更好,可达70%以上正确率,可能由于评论数据积累丰富。
8、舆情与价量数据结合
相关性分析
- 舆情数据与价量数据整体相关性较低,多数低于0.3,显示两者为弱相关互补信息。
- 舆情数据内部与价量数据内部均存在高相关因子(0.99),存在强多重共线性,解释了Lasso更优的回归表现。
结合模型测试
- 多元回归(Lasso):加入舆情数据后样本内表现无明显提升(涨幅或轻微下降),但样本外表现提升明显,最佳周度预测准确率达70%以上。
- LSTM模型:加入舆情数据后样本内表现略有下降(4%左右),但样本外表现提升约2%胜率,表明模型补充舆情数据后稳定性增强。
---
三、图表深度解读
图表6(价量因子)与图表27、28(舆情数据示例及评分)
清晰展示了模型输入的价量指标与舆情相关因子的维度范围,为后续回归分析提供了丰富、多维的数据基础。
图表6(上证50已实现波动率走势图)
反映波动率在2015年至2022年间围绕约15.9%的历史均值震荡,但存在多次剧烈波动峰值。ADF单位根测试(t=-4.544,p=0.00016)表明波动率序列平稳,适合时间序列建模。
图表10(多元回归样本外表现)
在2021年1月至2022年8月区间,OLS和Ridge偶出现不合理预测(0甚至负值),Lasso预测稳健,拟合曲线较贴近真实波动率。
图表13与图表17(GARCH样本内与样本外表现)
GARCH模型拟合曲线紧密追踪真实波动率,特别在样本外虽预测时点未调参,预测效果依旧较优。样本外准确率80%以上的短回看窗口表现尤为突出。
图表21(LSTM与线性回归对比)
LSTM在MAE,MSE,胜率三个指标均明显优于Lasso,周度胜率提升达12.15%。强调了深度学习模型在捕获非线性及长期依赖中的优势。
图表30(波动率与情绪指标对比)
情绪指标与波动率存在同步性,市场波动较大时,情绪指标的峰值更明显,验证了舆情因子有助于捕捉市场极端情绪反应。
图表33、35(价量+舆情多元回归表现)
加入舆情数据后,多元回归模型样本外表现出现明显提升,周度正确率突破70%。表明舆情数据改善模型的泛化能力。
图表37、39(价量+舆情数据LSTM表现)
样本内表现轻微下降、样本外胜率提升约2%,指明深度模型对多源输入的适应性和稳健性。
---
四、估值分析
本报告主要是研究模型预测能力,未直接涉及公司估值或目标价的内容。重点在于模型性能指标(MAE、MSE、RMSE、预测胜率)比较,而非传统估值方法。
---
五、风险因素评估
报告明确风险提示:
- 市场风格切换:导致模型关键特征的有效性突变,模型预测效果或显著下降。
- 深度学习模型可解释性较差:样本外表现可能波动,需要谨慎应用。
- 舆情数据覆盖不足或噪声问题:特别是早期数据规模小,且情感分析模型识别"俚语"能力有限,存在误差。
- 多重共线性问题:价量及舆情数据内部均存在高相关因子,需使用正则化等方法避免拟合失效。
报告强调通过样本内外分离验证模型以缓解过拟合,尽可能提高预测的稳健性。
---
六、批判性视角与细微差别
- 舆情数据对预测增益有限:其本身具备一定预测能力,但补充入价量数据中效果不明显,甚至在样本内LSTM部分略有下降,这提示舆情数据噪声和非同步性可能制约增益。
- 深度学习模型虽然表现最佳,但可解释性及稳定性较弱:在样本外表现出现一定波动,预测能力下降,实际使用需注意模型重训和监控。
- 多元回归OLS和Ridge模型表现不稳定,尤其在多重共线性存在时:经常出现不合理预测,强调Lasso的技术优势。
- 各模型预测能力随着预测期延长均明显衰减,深度模型对远期预测的优势需要进一步强化。
- 样本外波动率较平稳,可能造成模型表现优于样本内的现象,其在极端波动环境下能否稳健仍需实证验证。
- 舆情情绪分数模型基于通用语义库,未针对金融语言特性优化,未来应针对金融领域定制训练以提升情绪正确识别。
---
七、结论性综合
本篇报告系统比较了三类波动率预测方法——多元线性回归(OLS、Lasso、Ridge)、GARCH时序模型及深度学习模型LSTM,同时探索了舆情数据对预测能力的贡献。基于样本内与样本外回测,得到以下核心结论:
- LSTM模型预测能力最优,在相同的120天回看周期下,周度预测准确率达到70.73%,显著超越多元回归(Lasso约63%)及GARCH(约65.8%);
- GARCH模型表现稳定,短时间回看窗口显著优于长周期,最高胜率超过80%,但日度预测准确性略逊色于周度预测;
- 多元回归中Lasso回归优于OLS和Ridge,避免了多重共线性导致的负值预测及不稳定性;
- 舆情数据自身拥有一定预测能力(胜率约63%),且低相关性与价量数据互补,但在样本内融合价量数据未带来显著提升;样本外表现略微增强模型稳健性;
- 样本外测试显示各模型泛化性较强,未出现性能重大衰减,样本外波动平稳有助模型稳定表现,实务应用中仍需重点关注极端波动环境模型表现;
- 预测准确率随预测期延长而下降,对近期短期波动率的准确预测能力较强;
- 结合实证观察,基于深度学习与多源数据融合的波动率预测在当前中国市场条件下展现良好应用前景,具备实际投资决策支持价值。
图表亮点总结
- 图表6,6:波动率时间序列平稳性基础支撑建模。
- 图表10、12、16、18:展示三类模型样本外拟合稳健,GARCH胜率最高。
- 图表21、23、24、26:LSTM模型优势显著,尤其对于周度预测。
- 图表28、30:舆情情绪指标与波动率高正相关性,验证市场情绪对价格波动的影响。
- 图表33、35、37、39:舆情数据带来样本外模型稳健性提升的证据。
综上所述,深度学习(尤其是LSTM)结合丰富的价量信息,当前阶段已明显优于传统计量模型,舆情数据作为辅助虽提升有限但稳定性增强,市场参与者可考虑此类技术监控和辅助期权波动率预测,助力风险管理和衍生品投资策略优化。
---
以上分析依据报告全文内容,结构按章节划分,图表解析与文字内容紧密结合,力求全面细致呈现本报告研究成果。
[page::0,1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29]