【广发金工】面向通用模型的时序数据增强方法
创建于 更新于
摘要
本报告系统梳理了时序数据增强方法,涵盖随机变换、特征融合和生成模型等类别,深入解析了八种典型增强技术在GRU模型中的实际应用效果。实证显示采用线性衰减数据增强概率训练,八种增强因子均提升了RankIC和年化收益率,将增强因子与原始因子等权合成,RankIC均值提升1.2%,多头和多空年化收益率显著提升,验证了时序数据增强对提升量化模型泛化能力和稳定性的有效性[page::0][page::2][page::13][page::17][page::20][page::21]。
速读内容
研究背景与意义 [page::0][page::2]
- 如何对有限且高度同质化的量价时序数据进行充分利用,是量化投资中的重要挑战。
- 时序数据增强(Temporal Data Augmentation)通过平移、缩放、扰动、裁剪、合成等策略,构建更丰富训练数据,提升模型的泛化能力和鲁棒性。
- 该技术适用于机器学习、深度学习和强化学习体系,未来具备广阔应用前景。
时序数据增强分类与典型方法概述 [page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::12][page::13]
- 随机变换(Random Transformation):包括抖动(Jittering)、旋转(Rotation)、缩放(Scaling)、幅度扭曲(Magnitude Warping)、切片(Slicing)、片段重排(Permutation)、时间扭曲(Time Warping)、窗口扭曲(Window Warping)等多种形式。
- 特征融合(Pattern Mixing):通过均值插值、偏离均值增强、时间对齐混合、频域混合和多域融合等方法生成新样本。
- 生成模型:统计模型(如LGT、MAR、马尔可夫链采样)及基于神经网络的生成模型(Encoder-Decoder、GAN及其变种),实现样本的多样化合成,增强数据空间覆盖。
- 各类方法在图表中均有示意和框架图说明,便于理解。
实证研究设计 [page::13][page::15]
- 研究对象为中证全指成分股(剔除北交所、ST等),日度量价数据。
- 采用GRU深度学习模型,保持网络结构、参数、损失函数一致,仅比较不同数据增强方法对模型表现的影响。
- 训练采用两种数据增强概率模式:固定p=0.5;线性衰减p从1到0。
- 调仓周期20交易日,交易成本考虑后回测区间至2025年6月。
数据增强方法性能比较(固定概率p=0.5)[page::14][page::16]
| 数据增强方法 | RankIC均值 | RankIC胜率 | RankICIR | 多头年化收益率 | 多空年化收益率 |
|--------------|------------|------------|----------|----------------|----------------|
| 原始数据 | 12.30% | 84.80% | 1.02 | 17.24% | 48.73% |
| jittering | 12.10% | 86.00% | 1.04 | 17.37% | 48.59% |
| scaling | 12.00% | 86.60% | 1.09 | 18.05% | 50.24% |
| rotation | 9.10% | 81.70% | 0.88 | 14.66% | 30.44% |
| permutation | 11.70% | 84.00% | 1.00 | 16.45% | 44.31% |
| mag-warp | 11.00% | 84.90% | 1.05 | 15.93% | 42.12% |
| time-warp | 9.80% | 81.60% | 0.87 | 13.40% | 32.25% |
| window-slice| 12.00% | 83.60% | 1.00 | 17.02% | 46.93% |
| window-warp | 12.30% | 84.50% | 1.01 | 17.04% | 48.29% |
| 等权合成 | 12.30% | 84.60% | 1.01 | 17.78% | 47.24% |
- rotation和time-warp因对序列结构破坏较大,表现明显退化。
- jittering和scaling在胜率、收益率等指标上略优。
- 数据增强因子相关性显示rotation与其他因子相关性最低,证明其扰动较大。
数据增强方法性能比较(线性衰减p)[page::17][page::18]
| 数据增强方法 | RankIC均值 | RankIC胜率 | RankICIR | 多头年化收益率 | 多空年化收益率 |
|--------------|------------|------------|----------|----------------|----------------|
| 原始数据 | 12.30% | 84.80% | 1.02 | 17.24% | 48.73% |
| jittering | 13.30% | 86.00% | 1.07 | 19.58% | 55.35% |
| scaling | 12.80% | 85.70% | 1.07 | 19.43% | 53.88% |
| rotation | 12.80% | 87.30% | 1.15 | 19.47% | 55.99% |
| permutation | 12.70% | 86.90% | 1.12 | 18.76% | 51.64% |
| mag-warp | 12.60% | 86.60% | 1.15 | 19.84% | 54.61% |
| time-warp | 12.80% | 85.60% | 1.07 | 18.81% | 53.87% |
| window-slice| 12.80% | 85.70% | 1.10 | 18.99% | 51.49% |
| window-warp | 12.80% | 84.60% | 1.03 | 18.07% | 51.20% |
| 等权合成 | 13.50% | 86.50% | 1.09 | 20.05% | 56.38% |
- 线性衰减训练使模型均衡利用增强和原始数据特性,整体表现更佳。
- jittering、scaling、rotation等增强方式均提升显著。
- 等权合成进一步提升RankIC均值1.2%,年化收益率提升最明显,表现更稳健。
因子历史表现与组合收益曲线 [page::18][page::19][page::20]
- 各因子RankIC历时表现呈现良好单调性,十分档组合收益表现稳健,确保了择时及选股有效性。
- jitttering、scaling、rotation等因子呈现较强的历史超额收益能力。
- 组合因子策略展示了多头与多空年化收益的正向改善趋势。
结论与展望 [page::20][page::21]
- 时序数据增强通过构建数据多样性和增加样本信息量,有效提升量化模型的泛化和稳健性。
- 采用线性衰减方式动态调整数据增强概率,可兼顾增强数据的利用与模型最终对真实数据的收敛。
- 不同增强方法和参数配置,对不同数据和模型表现差异显著,未来可进一步挖掘针对特定场景或标的的最佳实践。
- 时序数据增强方法具有极强的跨模型和跨资产应用潜力,尤其适用于深度学习和强化学习架构中,值得持续研究和优化。
深度阅读
【广发金工】面向通用模型的时序数据增强方法 - 详尽分析报告
---
1. 元数据与报告概览
本报告标题为《【广发金工】面向通用模型的时序数据增强方法》,作者为广发证券首席金工分析师安宁宁及陈原文团队,发布单位为广发证券金工研究团队,发布日期为2025年7月31日。研究主题聚焦于时间序列数据增强技术,特别是其在量化投资领域中对深度学习模型(如GRU模型)性能提升的潜力与应用。
报告核心论点为:在金融行业中,量价数据源高度同质化,传统数据有限,如何通过时序数据增强方法对有限数据进行扩展,从而提升模型的泛化能力、鲁棒性和稳定性,是量化研究的关键问题。该报告通过系统梳理时序数据增强方法(包括随机变换、特征融合与生成模型等),并结合实证分析,探讨其在GRU深度学习模型中的实际应用价值。实证表明,采用经过线性衰减概率策略的数据增强训练,在因子选股效果及年化收益率上均有明显提升,推荐将数据增强因子与原始因子等权合成以发挥综合优势。
整体评级倾向正面,强调数据增强作为提升量化模型的有效手段,尤其适用于信噪比较低的金融时序数据环境,具有广阔的应用前景与研究价值[page::0,2,21]。
---
2. 逐节深度解读
2.1 摘要与引言
报告开篇强调量价数据的高度同质化,投资者可用数据有限,提出通过时序数据增强提升模型泛化能力的重要性。介绍多种时序数据增强技术,如平移、缩放、扰动、裁剪及合成等策略,这些方法无需引入额外信息,就能丰富训练样本空间。该技术能够缓解过拟合,提升模型在高噪声、低信噪比的金融数据环境下的信号提取能力和风险识别水平,同时适用传统机器学习、深度学习和强化学习系统,拓展策略表达和适应性[page::0,2]。
2.2 时序数据增强方法综述
报告综合计算机视觉领域的数据增强经验,指出早期增强如裁剪、翻转、颜色扰动丰富了图像领域样本,迁移到时序建模,则发展出随机变换等系列方法,包括添加噪声、截取局部片段、幅度拉伸、时间轴扭曲等。方法简单易用,兼容神经网络。此外还介绍特征融合与生成模型方法,后续章节详细展开这些方法[page::3]。
图1与图2
- 图1示意了多种时序增强手段对原始时间序列(蓝色虚线)进行的变换,如抖动(jittering)加入高斯噪声,翻转(flipping)沿基线倒置,缩放(scaling)放大或缩小幅度,幅度扭曲(magnitude warping)通过平滑曲线局部调制强度,片段重排(permutation)、窗口切片(window slicing)、时间扭曲(time warping)、窗口扭曲(window warping)调整时间结构。红线表示增强后信号,插图清晰表达了各策略操作步骤及效果[page::1,3,14]。
- 图2构建了时序数据增强的详细分类体系。数据增强主要分三块:随机变换(包括幅值、时间与频率域变换)、特征融合(pattern mixing,包括幅值、时间、频率及多域混合)、生成模型(统计模型与神经网络模型)及分解方法(如STL,ICA,EMD)[page::4]。
2.3 随机变换方法详细解析
幅值域变换
包括抖动(jittering)、旋转(rotation)、缩放(scaling)、幅度扭曲(magnitude warping)四类:
- 抖动通过在每个时间点注入零均值高斯噪声,模拟现实环境的不确定性,有效提升模型对噪声不敏感性,且缓解数据漂移问题。图3直观表现了加入随机噪声后的波形偏差[page::5]。
- 旋转原本是多变量间的随机线性变换,用随机旋转矩阵扰动各变量相对关系。但金融单变量序列中旋转退化为负号翻转,且旋转可能破坏物理或经济上的时间序列结构,导致关键特征扭曲,实际中效果较差。图4显示了旋转变换过程[page::5-6]。
- 缩放整体乘以随机缩放系数,使序列幅度在合理区间内改变,模拟不同波动强度。缩放系数可从均值1的高斯分布或预设区间采样。适合提高模型对幅度变化鲁棒性,过大/过小权重会引起失真或增强无效。图5直观展示了缩放效果[page::6]。
- 幅度扭曲较缩放更为精细,局部时间点幅度乘以平滑变化的调节曲线,模拟自然非均匀波动。图6说明通过三次样条插值构建调节曲线实现局部幅度调制,类似琴弦局部受力。此法对任务敏感度高,具复杂超参数,增加调参难度[page::7]。
时域变换
关注时间点顺序或节奏的变化,主要包括:
- 切片/窗口裁剪(Slicing)随机截取连续子段,保留局部时间结构并增加样本多样性,计算开销低,广泛使用。图7展示切片效果[page::7-8]。
- 片段重排(Permutation)将序列划分为等长或变长片段,随机调整片段顺序,打乱时间先后。适用于时间顺序不敏感场景,破坏时间预测类任务的有效性。图8给出了重排示意[page::8]。
- 时间扭曲(Time Warping)通过非线性时间轴映射(利用三次样条)或窗口内放慢/加速操作,变更局部节奏,模拟复杂时间动态。图9和图10演示两种时间扭曲方法[page::9]。
频域变换
针对频率特性进行扰动,适用于周期性音频信号和震荡特征明显的金融数据:
- 频率扭曲(Frequency Warping),典型如声道长度扰动(VTLP),通过非线性频率轴变换增强模型对频谱变化适应(主要语音领域)[page::9]。
- 基于傅里叶变换的扰动,通过对傅里叶域幅度和相位谱注入噪声实现频域增强,保持时序结构不变,扩展样本频谱多样性[page::9-10]。
- 频谱增强(Spectrogram Augmentation)结合时间扭曲、频率掩蔽和时间掩蔽,直接操作频谱图,模拟信道干扰及信息缺失等现实问题,语音识别及金融频域研究新方向[page::10]。
2.4 基于特征混合的增强
通过合成多条原始序列生成新样本,提升样本多样性:
- 幅值域混合:利用插值技术如SMOTE系列,或基于类别统计均值的偏离均值增强(DFM),平滑信号与插值结合,生成高质量样本[page::10-11]。
- 时域混合:利用DTW进行时序对齐,实现教师-学生序列的结构混合,改变时序结构的同时保持幅值信息完整。包括随机指导扭曲(RGW)和判别指导扭曲(DGW)[page::11]。
- 频域混合:如均衡混合数据增强(EMDA)和随机特征映射(SFM),基于频域特征重构实现增强,主要应用于语音[page::11]。
- 多域混合:结合幅值、时间、频率多域融合,如SPAWNER随机对齐平均和DBA加权时间序列平均,提升时间结构变化多样性和代表性[page::11]。
2.5 基于生成模型的时序增强
统计生成模型和神经网络生成模型提供了从数据分布采样生成新序列的路径:
- 统计模型利用LGT、混合高斯树、MAR、马尔可夫链蒙特卡洛等,优势是理论可解释且保持统计一致性,适合统计特征明显的任务[page::12]。
- 神经网络模型如编码-解码网络(自编码器、变分自编码器),生成对抗网络(GAN)及其变体(MLP-GAN, RNN-GAN, CNN-GAN, 混合结构GAN),通过非线性学习实现高保真、多样化时序生成,已广泛应用于心电图、情绪识别等领域[page::12-13]。
2.6 实证分析:时序数据增强在GRU模型中的应用
本研究以GRU为代表深度时序模型,在固定输入、网络、损失函数及超参数设置下,比较8种代表性时序增强方法对量价数据训练效果:jittering、scaling、rotation、permutation、magnitude warping、time warping、window slicing和window warping。训练时以概率p随机选择是否采用增强数据,p分两个模式:固定0.5,和训练中线性衰减(1到0)。测试时均采用原始数据。
- 相关性分析(表1):
- jittering、scaling与原始数据相关性最高(接近1),说明增强方式对时间特征影响最小;
- rotation和permutation相关性最低,显示其对原始时序结构影响较大[page::14]。
- 固定概率p=0.5结果(表2):
- RankIC均值无明显提升;
- jittering、scaling提升RankIC胜率1.2%-1.8%及IR、多头年化收益;
- rotation和time warping大幅退化,损失严重,和其他增强因子相关度偏低(约0.6),说明过度破坏数据结构降低模型性能[page::16]。
- 线性衰减概率p训练结果(表4):
- 所有增强方法均在RankIC均值、胜率、多头和多空年化收益率指标有不同程度提升;
- jittering表现提升最为显著,等权合成增强因子的表现优于单一增强;
- 线性衰减策略使模型初期借助增强数据提升泛化,后期回归真实数据训练,有效控制增强的偏差,发挥最优效果[page::17]。
- 相关性提升(表5):
- 线性衰减模式下,因子之间及与原始数据相关性整体提升到0.8以上,增强因子间差异性减小,表现出更稳定的特征表达[page::18]。
- 因子选股历史表现与组合收益:
- 通过图14-33,展示原始因子及各增强因子的RankIC累计值走势均为正向单调趋势,十分档组合收益亦大体呈递减趋势,表明各因子均具良好选股能力;
- 多种增强方法效果体现稳定且连续,说明数据增强对均衡因子表现具有积极作用[page::18-20]。
---
3. 图表深度解读
图1 & 图3-10:时序增强示意图
- 内容:图1、图3至图10多套对比图均清晰展示每种增强策略对时间序列信号的实质变换,红线显示增强结果,蓝色虚线为原始曲线,直观反映增强对幅值与时间轴结构影响。
- 意义:直观证明每种方法在保留信号整体形态的前提下,施加了不同类型的扰动,体现了增强多样性与操作细节。
- 与文本对应:通过图表辅助理解,明确区分了幅值扰动(如jittering抖动、scaling缩放、mag-warp幅度扭曲)、时序变换(slicing切片、permutation重排、time warping时间扭曲及window warping)及频域相关增强的操作机制[page::1,3-10]。
图2:时序增强分类体系
- 内容:系统梳理各种增强方法的分类框架,从任务、家族、领域到具体方法,逻辑层级清楚。
- 意义:构建了数据增强领域的知识体系,有助理解方法间的关系与适用场景,提示研究路径[page::4]。
表1、表2、表4、表5:数据相关性与GRU模型表现对比
- 内容:表1和表5列出了各种增强方法和原始数据间的相关系数,反映增强方法对原信号保持程度;表2和表4比较了不同增强训练模式下GRU模型因子的RankIC均值、胜率、IR及收益表现。
- 趋势/洞察:
- 高相关性增强方法(jittering、scaling)更易维持模型性能稳定;
- 线性衰减训练模式明显优于固定概率,体现动态控制增强的重要性;
- rotation和time-warp在固定模式表现差异显著,提示过度扰动时序结构致模型性能退化;
- 等权合成提升显著,说明多样化增强策略合并能带来集体优化效应[page::14,16,17,18]。
图14至图33:RankIC历史表现与十分档收益表现
- 内容:多图展示不同增强方法及原始因子在2020年至2025年阶段的RankIC累计变化及十分档组合收益分布。
- 趋势解读:
- 均呈现递增的RankIC累计曲线,反映因子具有稳定的选股正向相关性;
- 十分档收益呈现明显的递减趋势,满足选股排序预期,中高档位收益显著优于低档,证明增强因子在实证交易中具备实用价值;
- 等权合成因子表现更优,且增长更平稳,进一步确认增强素材多样带来的综合优势[page::18-20]。
---
4. 估值分析
本报告不涉及传统财务估值内容,侧重于技术方法与策略表现的量化指标分析,以及模型训练策略比较,评估以量化因子RankIC及年化收益率指标为核心,体现因子信号稳定性及选股能力。
---
5. 风险因素评估
报告明确列出了多方面风险提示:
- 历史数据统计与模型参数基于既往市场环境,市场政策变更与环境变化存在使结论失效的风险;
- 市场结构与交易行为剧烈变动可能导致策略失效;
- 量化模型多样,结论与其他模型结果可能存在差异;
建议投资者对此类风险充分评估,避免模型过度依赖历史数据,关注策略适应性和环境变迁带来的挑战[page::2,21].
---
6. 审慎视角与细微差别
- 报告在增强方法选择上的实证体现出对于极端变换(如rotation, permutation, time-warp)的谨慎态度,尤其在固定概率训练模式下表现下降,暗示这些增强手段可能破坏信号关键结构,反而降低模型性能;
- 线性衰减概率p的引入是一种权衡增强与真实数据训练的合理策略,显示了作者对模型收敛稳定性的关注;
- 对不同增强策略表现的统计指标集中公示,显示了作者在方法对比上的客观性,但未详尽说明参数调优细节,未来研究有待探索不同参数配置对增强效果的影响;
- 报告不涉及更复杂深度结构(如Transformer)和其他损失函数的差异影响,此为后续研究方向;
- 报告强调多样化融合方式(等权合成)大幅提升因子表现,待未来通过机制分析进一步剖析不同增强间互补性[page::21]。
---
7. 结论性综合
本报告系统梳理了当前时序数据增强的主流方法体系——涵盖随机变换(抖动、旋转、缩放、局部幅度调节、时间维度裁剪及扭曲等)、特征融合(幅值及时间域混合)、以及生成模型(统计与神经网络方法)。通过多图示及详细数学阐述,辅助读者理解各增强策略的操作机制及其对时间序列数据的影响。
实证部分基于金融市场实盘量价数据,采用GRU深度学习模型,在不同数据增强训练策略下对比性能。核心发现是:
- 固定概率训练模式下,数据增强难以显著提升RankIC均值,但部分增强(尤其jittering、scaling)可提高RankIC胜率和年化收益,旋转及时间扭曲等方法反而损害性能;
- 线性衰减概率训练模式显著提升所有指标,且增强因子组合优于单一因子,展现出增强训练策略动态调整的优势;
- 相关性分析证明局部扰动性质增强更适合量价序列;
- 真实交易回测表明,增强因子在实际投资组合中表现稳健,显著提升多头及多空策略的年化收益率(最高提升近8%);
- 数据增强技术有效缓解市场噪音影响,提升模型泛化性能,尤其在低信噪比环境下更具价值;
- 时序数据增强适配多种机器学习及深度学习架构,未来结合其他模型(如Transformer)、多模态数据和复杂损失函数应用具备广阔研究及实践空间。
综上,报告确认时序数据增强为量化投资领域提升模型性能的重要手段,推荐采用包含抖动、缩放等的多样化组合增强,同时结合动态概率调整训练策略,实现模型泛化和信号稳定性的双重提升,推动量化策略向更高可靠性与鲁棒性迈进[page::0,2,14-20,21]。
---
备注:本次分析严格依据报告内容,避免未经证实的推测,引用均附带原始页码以确保内容溯源明确。
参考页码
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22