Chain-structured neural architecture search for financial time series forecasting
创建于 更新于
摘要
本报告针对金融时间序列预测,比较了贝叶斯优化(TPE)、Hyperband和强化学习三种神经架构搜索策略,以及多层感知器(MLP)、1D卷积神经网络(CNN)、循环神经网络(RNN)和时序融合变换器(TFT)四种架构。研究表明,贝叶斯优化和Hyperband表现最佳,1D CNN和LSTM优于MLP和TFT,且优化过程中存在较大随机种子方差影响,通过重复训练与测试缓解该问题,最后建议采用集成方法以降低方差风险。整体预测性能受限于金融时间序列的噪声与非平稳特性,测试集AUC最高约0.56,反映任务难度之大。报告还针对优化策略和架构选择给出实践建议,并指出未来可探索更高级的NAS方法如分块搜索空间和遗传算法等 [page::0][page::6][page::12][page::14][page::15]
速读内容
- 研究背景与问题定义 [page::1][page::2]:
- 深度神经网络表现优异,但架构设计仍需手工完成,神经架构搜索(NAS)旨在自动化架构设计。
- 本文关注财务多变量每日时间序列的二分类预测任务,预测未来5或10天目标特征变化。
- 数据集包含日本、德国、美国债券,约4000天×1000特征,样本较少,易过拟合。
- 架构类型及搜索空间设计 [page::3][page::4][page::5]:
- 采用链式结构搜索空间,基于简单且易解释架构:MLP(多层感知器)、1D CNN、RNN(LSTM)。
- TFT(时序融合变换器)引入用于比较,结果受限于数据不足表现差。
- 1D CNN区分深度卷积和普通卷积,后者更实用且计算成本低。
- RNN采用堆叠LSTM结构,优化层数和单层隐藏单元数。
- 搜索策略对比 [page::6][page::7][page::8][page::9]:
- 三种策略:贝叶斯优化(TPE)、强化学习(RNN控制器+REINFORCE算法)、Hyperband(基于成功淘汰的随机搜索)。
- 贝叶斯优化适合处理类别型和依赖参数,性能稳定;强化学习灵活但实现复杂;Hyperband着重早期筛选,有效节省资源。
- 算法均结合多次训练与评估以减少随机种子影响。
- 数据预处理与评价指标 [page::9][page::10][page::11]:
- 通过去除冗余时间衍生特征和PCA降维(保留约150主成分)降低维度。
- 评估指标为AUC为主,兼顾平衡准确率和F1分数。
- 随机种子对性能影响显著,采用15次训练取平均,最佳模型进一步进行50次测试。
- 结果汇总与关键发现 [page::12][page::13]:

- 德国数据集表现最好,Hyperband选出的LSTM模型测试AUC约0.56 ± 0.05。
- 日本数据集最佳为贝叶斯优化选1D CNN模型,AUC约0.54 ± 0.03,F1达0.65。
- 美国数据集最难,模型平均预测表现不超过随机。
- LSTM和1D CNN整体优于MLP,Hyperband和贝叶斯优化优于强化学习。
- 三种搜索策略耗时相当,约12小时/架构单GPU。
- 优化历程与随机性挑战 [page::14][page::15]:


- 优化过程中结果波动大,无明显收敛趋势。
- 随机种子对性能影响大,最佳参数如序列长度(chunk length)对模型效果影响显著。
- 采用集成方法和筛除概率接近0.5的预测结果虽提升均值,但加剧了方差。
- 推荐采用多次训练结果集成以减少随机扰动影响。
- 未来研究方向 [page::15]:
- 在更多且公开的时序数据集上验证结果。
- 探索架构细胞/分块搜索空间和超网络等一体化NAS方法。
- 研究遗传算法在时序数据上的架构搜索潜力。
深度阅读
金融时间序列预测中链式神经架构搜索的详尽分析报告
---
1. 元数据与概览
- 报告标题:Chain-structured neural architecture search for financial time series forecasting
- 作者:Denis Levchenko、Efstratios Rappos、Shabnam Ataee、Biagio Nigro、Stephan Robert-Nicoud
- 机构:
- School of Engineering and Management Vaud (HEIG-VD), University of Applied Sciences and Arts Western Switzerland (HES-SO), Switzerland
- Predictive Layer SA, Rolle, Switzerland
- 发布日期:未显式标明,参考文献至2023年有更新,推断较新
- 关键词:神经架构搜索(NAS)、时间序列预测、超参数优化、深度学习、神经网络、强化学习
- 研究主题:金融领域多变量时间序列的二分类预测,评估和优化不同神经网络架构及NAS方法在小样本金融时间序列数据上的表现。
核心论点与目标:
本报告旨在探讨链式结构神经架构搜索方法应用于金融时间序列预测的有效性,比较三种主流NAS策略(贝叶斯优化中的树结构Parzen估计器TPE、Hyperband方法与强化学习),基于几类经典及复杂神经网络(MLP、1D CNN、RNN、Temporal Fusion Transformer)进行优化测试。报告发现贝叶斯优化和Hyperband表现最佳,RNN与1D CNN在模型表现上优于其他架构,尽管各方法间表现接近并受金融数据高波动性影响。作者还提出了缓解网络训练随机性带来的高方差的策略建议和未来工作展望。[page::0,1]
---
2. 逐节深度解读
2.1 引言(Introduction)
- 深度神经网络成功的原因为免去复杂的手工特征工程,但网络架构设计仍需人工完成,引出AutoML与NAS作为自动架构和参数搜索的技术手段。
- 大量NAS研究聚焦于图像和文本,时间序列,特别是金融时间序列领域的研究相对匮乏。
- 金融时间序列具有样本量小(单个数据集4,000条数据、1000维特征)、高噪声、非平稳性等挑战,导致表现不佳,常见指标(F1、AUC、Accuracy)平均仅略高于0.5的随机水平。
- 报告基于NAS三大核心组件:搜索空间、搜索策略、性能评估,后文分别展开。
逻辑清晰指出金融时间序列预测的难点在于数据特性和模型泛化能力的瓶颈,并说明了选择链式搜索空间和简单神经网络结构的合理性。[page::1]
2.2 数据与问题定义(Data and problem formulation)
- 合作企业Predictive Layer SA提供真实客户金融多变量每日数据集,目标为预测目标特征在未来5或10天内的涨跌,属于二分类问题。
- 数据规模大约为4,000×1,000矩阵(1,000个金融指标,涵盖多方面信息),时间跨度约15年。
- 数据维度与样本量比例极高,挑战为统计显著性及过拟合风险。
- 三个数据集分别为日本、德国和美国债券市场,适用于NAS在金融时间序列上的泛化研究。[page::2]
2.3 神经架构及搜索空间设计
2.3.1 链式架构搜索空间(Chain-structured search spaces)
- 链式结构搜索空间仅包含连贯的层序列,设计简单且适合样本较小的时间序列任务。
- 缺点包括灵活性有限,难以发掘“创新”结构,且扩展性对大规模数据有限。
- 基础网络类型选用已被验证的MLP、1D CNN、RNN;并对比复杂的Temporal Fusion Transformer (TFT)。
2.3.2 具体体系结构
- Feedforward Networks (MLP)
仅基于单日特征输入,时间维度通过时序延迟或均值特征间接体现,超参数包括层数、每层单元数、dropout率、学习率。
- Convolutional Neural Networks (CNN)
使用滑动窗口的时间块数据直接进行1D卷积,捕捉时间序列局部时序结构。主要调节滑动窗口长度、卷积核大小、卷积层数、卷积滤波器数量等。1D CNN通过所有特征通道混合卷积,较避免了深度卷积中计算爆炸问题。2D CNN因计算开销大且表现不佳被弃用。
- Recurrent Neural Networks (RNN)
以序列处理能力著称,自然适合时间序列,输入为时间窗口的多特征序列。采用基本RNN及LSTM,后者因性能稳定被最终选用。超参数包括堆叠层数、隐藏单元数、窗口长度、dropout率、学习率。
- Temporal Fusion Transformer (TFT)
先进的融合注意力机制架构,兼顾多时间尺度及多类别输入,具备可解释性,来自文献[8]。然而在本项目小样本金融数据上表现不佳,模型陷入极端二值预测,推断主要因数据不足造成训练困难。
以上内容系统介绍了考虑的主要神经网络架构及其搜索空间,对应设置的超参数与设计考量,合理凸显时间序列建模需求与资源限制的权衡。[page::2,3,4,5]
2.4 搜索策略分析
2.4.1 贝叶斯优化(Bayesian Optimization)
- 以概率模型(通常为高斯过程GP)拟合目标函数,利用期望改进(Expected Improvement)准则来平衡探索与利用。
- GP的限制包括类别参数及依赖结构处理困难,引入TPE(树结构Parzen估计器)作为替代,利用层次Parzen估计自适应划分高维空间,便于处理复杂搜索空间。
- TPE实现简单高效,常由Optuna框架支持。缺点是理论复杂度较高。
- 算法1阐述TPE核心流程,包括初始随机样本采集、对优劣样本建模(l(x),g(x))、基于比值最大化选择下一采样点。
2.4.2 强化学习(Reinforcement Learning)
- 将NAS视作序列决策问题,由RNN控制器生成网络配置,训练这些配置得到奖励,基于REINFORCE算法更新控制器权重。
- 方法适应性强,但实现复杂度和自身超参较多。
- 算法2简要描述了该RL NAS的流程。
2.4.3 Hyperband
- 采用多轮施舍策略(successive halving),初期随机采样大量配置,对表现不佳者早期截断训练以节约资源,优胜者继续训练。
- 支持并行化,兼容主流深度学习框架(如KerasTuner)。
- 参数包括最大训练轮次 (epochsmax)、压缩因子 $\eta$ 等。
- 算法3详述Hyperband的分段训练、淘汰和迭代策略。
- 缺陷是可能过早剔除潜力型但训练初期表现不佳的架构。
上述三种策略各有优势和限制,报告选择对比它们在金融时间序列任务的实际表现。[page::5,6,7,8,9]
2.5 方法论细节
2.5.1 数据预处理
- 预处理关键包含去除冗余“时间衍生特征”以减少维度约1/3,这些衍生特征其实是某些特征经过时间延迟或均值处理的复制列。
- 进一步对数据归一化后执行主成分分析(PCA),聚焦于保留绝大部分方差的前若干主成分,极大降低维度,减缓过拟合风险。
2.5.2 主成分分析(PCA)
- PCA通过计算训练集协方差矩阵的特征向量和特征值来找到方差最大方向。
- 仅保留前 $k$ 个特征值贡献最大的特征向量对应方向,实现降维。
- 以图1(一条典型的碎石图)为例,选定 $k=150$ 以捕获大部分数据变异信息。
2.5.3 性能评估指标
- 由于数据不平衡,传统准确率 (ACC) 失效。
- 使用平衡准确率 (balanced ACC)、F1 分数和AUC指标,更公平评估模型分类能力。
- 报告主要以AUC为核心指标,因其最难提升。
2.5.4 随机种子变异性控制
- 神经网络训练结果高度依赖随机种子,尤其在金融领域表现出高方差。
- 设计每个网络架构配置训练15次,取平均指标;最优架构则训练50次保障稳定性。
2.5.5 实验设置
- 三类架构(FFNN、1D CNN、LSTM)分别使用三种策略(贝叶斯优化、强化学习、Hyperband)在三数据集上(日本、德国、美国)共27个实验。
- 每实验限定300个超参数配置,单配置训练80轮,训练耗时约12小时/架构,单GPU运行。
该章细节展现了对数据处理及实验设计的严谨把控和对随机性、过拟合风险的有效管理策略。[page::9,10,11,12]
2.6 结果分析
- 德国数据集表现最佳
- LSTM+Hyperband在测试集平均AUC为0.56±0.05,平衡准确率0.54±0.04
- 1D CNN+Bayesian优化 AUC 0.54±0.05,F1高达0.6±0.06
- 日本数据集
- 删除冗余特征加PCA后,1D CNN+Bayesian优化最佳,AUC 0.54±0.03,F1高达0.65±0.02
- 美国数据集最具挑战性
- 验证集上1D CNN表现较好(AUC~0.6),但测试集平均仅0.5,随机种子表现差异大,怀疑市场结构在近年发生改变。
- 各架构中LSTM和1D CNN领先于简单的FFNN,三种搜索策略整体表现相近,但Hyperband与Bayesian优化稍优于强化学习。
- 强化学习实现工作量较大,参数调优复杂,Hyperband和TPE在现成工具包支持下更易用。
- 算法效率及运行时间相似,单卡12小时完成300试验。
图2直观显示三种策略、三种网络在三个数据集的AUC分布与标准差,进一步印证结论。
总结而言,报告揭示LSTM与1D CNN适合小样本金融序列,并且简单高效的搜索策略(TPE, Hyperband)具备较高实用价值。[page::6,12,13]
2.7 讨论部分
- NAS过程无明显收敛趋势(Figure 3示例,100多次试验AUC波动明显),反映金融时间序列预测难度极大,难以通过架构微调获得显著提升。
- 初期训练严重过拟合限制了模型性能,去除时序冗余特征和PCA处理后有所缓解,但测试集表现提升有限。
- 训练随机种子的高方差难以消除,即使单个配置训练15次,最佳架构在更多次数(50次)训练验证中仍可能波动。
- 参数影响分析(Figure 4)显示,时间窗口长度是最关键超参数,其它如丢弃率、学习率、层数影响有限。
- 采用阈值过滤“模型不确定实例”(预测概率接近0.5)虽提升部分指标平均水平,但加剧总体表现波动,遗憾的是验证集筛选表现好随机种子无法保证对应测试集提升。
- 建议未来采用模型集成方法抵抗随机性影响。
从实验和分析看,报告坦诚反映了NAS在金融时间序列任务中的局限性及随机性挑战,态度审慎及技术务实。[page::14,15]
2.8 未来工作建议
- 扩展至多样化、公开的时间序列数据集,尤其非金融领域验证结论广泛性。
- 探索更复杂的搜索空间,如cell-based、hierarchical设计。
- 研究一类高效的one-shot NAS技术,避免重复训练,提升效率。
- 尝试基于遗传算法的进化策略,已有图像分类中成功经验。
此部分为报告的理性总结与指向,指引未来提升NAS实用性的可能方向。[page::15]
---
3. 图表深度解读
3.1 图1:PCA碎石图(第10页)
- 内容描述:展示日本数据集PCA的累积标准化解释方差与主成分数的关系。
- 解读:曲线在第150个主成分处趋于平缓,说明前150个主成分已包含主要数据信息,后续主成分贡献递减。选择150主成分平衡隐藏信息与降维效果,有效降低维度和噪声。
- 联系文本:验证了PCA降维策略,降低维度约85%,缓解过拟合,优化数据输入结构。
- 潜在局限:PCA假设线性关系且转换后特征不可解释性,适用于降低相关性强的高维数据。

3.2 图2:不同搜索策略与架构的AUC表现(第13页)
- 内容描述:各搜索策略选出的最佳架构在三个数据集上的平均AUC及标准差,点上标注所对应模型类型,颜色区分搜索策略。
- 解读:
- 德国数据集表现最好,最高点为Hyperband与LSTM组合。
- 日本数据集显示Bayesian优化选择的CNN表现较好。
- 美国数据集整体AUC水平较低,且众多配置表现接近随机。
- 各策略相差有限,均在高波动区间内。
- 联系文本:表明多种NAS方法均能找到合理配置,但金融时间序列的预测能力存在先天限制。
- 局限:未展示具体那种超参数组合或训练参数强影响结果。

3.3 图3:贝叶斯优化历史过程(第14页)
- 内容描述:普通1D CNN在美国数据集的贝叶斯优化过程,各试验架构对应的平均AUC,显示波动无明显升高趋势。
- 解读:
- 优化过程中AUC在0.49-0.57间大范围波动,说明搜索困难。
- 无明显提升趋势,暗示优化空间收敛问题或目标函数极其嘈杂。
- 联系文本:佐证“搜索无显著收敛”的论断,表明金融数据特性限制了模型改进空间。

3.4 图4:贝叶斯优化切片图—LSTM架构的超参数影响(第15页)
- 内容描述:以验证集平均AUC为y,五个关键超参数(chunklength,dropout,learningrate,层数,输出通道数)为x的切片展示。
- 解读:
- chunklength为约10时AUC最高(明显峰值),凸显时间窗口长度对性能敏感。
- 其余参数分布平坦或无明显趋势,影响相对较小。
- 联系文本:辅助选择关键超参数聚焦方向,指导后续搜索和设计重点。

---
4. 估值分析
本报告研究内容为模型设计与超参数优化,未涉及具体财务估值方法与目标价设定,故无传统估值分析章节。这符合研究主题围绕金融时间序列预测方法本身,而非金融资产估值。
---
5. 风险因素评估
报告重点揭示了以下风险因素:
- 高随机性/模型训练方差:随机种子引起的结果波动显著,导致在选择和评价模型时不稳定。单次训练结果易误导优化过程。
- 数据特性:金融时间序列具有低信噪比、高非平稳性,且样本数量相对较小,限制了深度学习模型的拟合和泛化能力,导致性能边际收益低。
- 过拟合风险:高维特征与小样本比例严重,初期网络表现不佳且过拟合明显,即使采用降维和正则化手段仍难根除。
- 训练资源与时间:尽管单个网络训练较快,总体300配置训练对计算资源要求不低。
- 策略限制:Hyperband存在过早淘汰潜在优质配置风险,RL方法实现复杂且参数多。
报告中没有明确提出针对所有风险的缓解策略,但针对随机种子问题建议多次训练平均和集成模型;针对高维复杂性提出了特征工程和PCA降维手段。[page::5,14]
---
6. 批判性视角与细微差别
- 报告对不同搜索策略的评估基本客观公正,但强化学习实现所需工作更大且表现不领先,暗示其在该领域使用门槛较高,实际效益未必明显。
- 对高复杂模型(TFT)评价负面,归因于数据量不足,但也可能与网络超参数调整和训练策略相关,建议未来开展更深入调研。
- 由于AUC表现均较低(0.5-0.56区间),表明NAS方法虽能提供参数调优,但对金融时间序列预测精度提升有限,尤其是对外部市场变动无法适应,影响模型泛化能力。
- 随机性带来选优难题,15次重复仍不足以完全稳定结果,显示该领域评测指标的固有限制。
- PCA降维虽有效降低维度,但可能引入信息损失影响预测。
- 文章多处提倡简单链式结构优势,强调可控性与可解释性,但也因此放弃更灵活的搜索空间,未来可能错失架构创新机会。
---
7. 结论性综合
本研究系统评估了链式神经架构搜索在金融时间序列二分类任务上的应用,结合真实多国债券市场数据,探讨三种NAS主流策略(TPE贝叶斯优化、Hyperband、强化学习)对三种主流网络架构(FFNN、1D CNN、LSTM)的优化能力。
- 在数据预处理上有效采用去除冗余“时间衍生特征”和PCA降维,显著缓解了高维小样本的过拟合问题。
- LSTM与1D CNN均获得优于FFNN的性能,说明序列建模能力对金融时间序列至关重要。
- 贝叶斯优化与Hyperband策略在不同数据集上表现稳定,强化学习虽通用灵活但实现与调优复杂且不具优势。
- 最佳验证AUC约在0.54至0.56之间,虽较随机基线(0.5)稍好,但仍表明金融市场预测本质难度极高,变量波动及有限数据制约性能。
- 多次训练取平均、模型集成成为减小训练随机性影响的必备策略。
- 复杂模型TFT未展现预期优势,强调数据量对参数丰富网络的决定作用。
- 优化过程中整体效果未表现明显收敛,说明构架空间及搜索算法面对金融数据的局限。
- 实验时间与资源投入巨大,提出未来探索更高效的搜索空间(如cell-based、one-shot方法)与进化算法的必要性。
图表清晰呈现PCA降维效果、各模型性能对比及超参数影响,其中chunk length(时间窗口大小)对性能影响最大,为未来模型设计提供重点方向。
综合来看,报告为金融时间序列领域NAS研究提供了首批系统探索和对比,结果表明链式搜索结合经典网络架构与合理预处理技术可带来有限但真实的性能提升,NAS策略选用上推荐贝叶斯优化或Hyperband,强化学习实现复杂且收益边际不明显。为解决金融序列高随机性和低信噪比问题,未来工作应侧重多模型融合、扩展数据样本和探索更灵活复杂搜索空间与高效搜索技术。[page::0-15]
---
综上所述
本报告详尽剖析了链式神经架构搜索方法在复杂高噪声金融时间序列预测上的实践应用,结合三个实际债券市场数据集对主流NAS策略和基础神经网络进行了全面评估。尽管受限于数据量及数据本身信息含量,研究成功指出了适合金融时间序列预测的神经网络架构类型及搜索技术,提出了高随机性背景下的数种缓解思路,并规划了未来多路径深入研究路线。报告结构严谨,数据与图示充分,结论审慎务实,为金融机器学习领域的模型自动化设计提供了实证参考与思考启示。[page::全]