`

FNSPID: A Comprehensive Financial News Dataset in Time Series

创建于 更新于

摘要

本报告介绍了FNSPID,一个涵盖1999至2023年、包含4775家标普500成分股近1.57千万条财务新闻与近3千万条股票价格的庞大时序金融数据集。FNSPID结合了丰富的定量数据和新闻情感评分,显著提升了基于深度学习模型的股价预测准确率,尤其是在Transformer架构中体现出较优性能。该数据集支持多语言、多源新闻,具备时间戳对齐的优势,为金融情感分析及量化策略研究提供了重要资源 [page::0][page::1][page::4][page::5][page::6][page::7]。

速读内容

  • FNSPID核心优势与构成特点 [page::0][page::1][page::2]


- 涵盖29.7百万条股票价格及15.7百万条财务新闻,覆盖4775只标普500股票,日期跨度1999-2023年。
- 融合了多家权威财经新闻网站数据(包括NASDAQ、Bloomberg、Reuters等),有效提升数据规模和多样性。
- 具备新闻文本摘要、多语言(英语与俄语)及情感标签,采用ChatGPT为主的情感评分机制。
- 相较现有金融新闻数据集,FNSPID在新闻量级、时间序列对齐及情感分析能力上均领先,填补了同类资源空白。
  • 数据预处理与情感量化方法 [page::3][page::4]

- 通过Sumy包使用四种算法(LexRank、Luhn、LSA、TextRank)对新闻文本进行三句摘要,优化摘要信息密度与相关性。
- 利用加权模型强化与目标股票的相关性,减少摘要冗余。
- 采取ChatGPT对摘要文本进行1至5分的情感打分(1极负,3中性,5极正),保证情感定量的稳定性和可解释性。
- 采用指数衰减模型填补无新闻时的情感缺失,保证情感时间序列的连续性与合理性。

  • 数据集统计特征与语言分布 [page::4]

- 新闻中37.54%包含股票代码,75.22%无新闻全文,仅提供标题。
- 语言构成以上英语占比94.9%,俄语约5.1%。
- 新闻发布时间跨度长,2009至2015年新闻量达到峰值。


  • 量化实验设计与模型表现对比 [page::5][page::6]


- 采用LSTM、GRU、RNN、CNN、Transformer和TimesNet等多模型对比,以股票开盘价、收盘价、成交量和情感分数为输入来预测未来3日收盘价。
- 利用不同规模训练集(5只、25只、50只股票)验证数据量对模型效果的影响。
- 结果显示训练数据量提升带来平均6.29% $R^2$改善,Transformer模型表现最佳,最高达0.988的预测准确率,领先次优LSTM 0.13以上。
- 基于ChatGPT标注的情感信息对Transformer模型有正向增益(约0.2%),而基于TextBlob的传统算法反而略有负面影响。其他模型对情感信息的利用效果较弱,部分将其视为噪声。
  • 量化因子与策略分析

- 本报告未直接构建传统单一量化因子,核心创新在于构建集大成的多模态多时间序列数据集,支持深度学习多因子模型训练和金融情感分析的融合。
- 情感评分作为重要特征提供给多模型,尤其是Transformer架构,有效增强股价预测准确性。
- 未来应用包含多模态模型训练、RL强化学习策略优化及大语言模型微调,拓展金融生成式AI助理能力。
  • 数据伦理与未来展望 [page::6][page::7]

- 数据采集严格遵守robots.txt及版权限制,仅抓取公开免费内容并结合已有开放许可数据。
- 关注金融数据隐私保护,依循GDPR和CCPA标准执行匿名化处理。
- 预测模型潜在滥用风险也被重点审视,制定公平、透明的使用规范。
- 未来计划自动化系统持续更新数据,扩充新闻覆盖度,推动多模态及情感分析模型深化研究。

深度阅读

金融研究报告详尽分析报告


报告标题:FNSPID: A Comprehensive Financial News Dataset in Time Series
作者:Zihan Dong, Xinyu Fan, Zhiyuan Peng
发布机构:North Carolina State University 与 SiChuan University
发布时间:2024年(具体日期未给出)
研究主题:集成金融新闻与股票价格的时序数据集构建及其对股市预测的助力

---

一、元数据与报告概览



报告概况


本报告核心在于介绍并发布一个全新且大规模的金融数据集——FNSPID(Financial News and Stock Price Integration Dataset),该数据集融合了大量S&P 500公司的股票价格和对应的时间对齐新闻数据,覆盖1999年至2023年时间段。该数据集涵盖约2970万条股票价格数据及1570万条金融新闻记录,结合了定量(价格交易数据)与定性(新闻情绪分析)两类信息,极大地提升了金融市场预测的研究基础。作者旨在推动基于大数据和现代机器学习(特别是基于Transformer的模型)技术的金融预测研究,通过揭示情绪数据对市场预测的价值,突破了传统基于价格历史数据模型的局限。并附带一套可复现的开源代码和数据更新方案。

主要结论包括
  1. FNSPID的数据规模和质量显著提升了市场预测精度。

2. 引入新闻情绪分数能够对基于Transformer的模型表现产生适度积极影响。
  1. 提供了系统的数据更新与应用流程,保证数据集的持续活力。


总体上,报告传递的信息是FNSPID是迄今为止涵盖广泛并兼具多模态特征(文本和价格)的金融时间序列数据集,极大促进未来金融AI模型的构建与研究优化。[page::0,1]

---

二、逐节深度解读



2.1 引言与研究背景

  • 传统金融市场预测多基于统计、计量经济学模型如Fama-French三因子模型与APT模型,关注市场收益的线性解释,无法有效捕捉价格的短期高低点及非线性市场动态。

- 新兴机器学习手段尤其是深度学习(RNN、LSTM、强化学习)对市场时序数据的模式捕捉能力更强,能够提高时点把握能力。
  • 新闻、博客、社交媒体等情绪数据对股票走势存在高度相关性。大型语言模型(LLM),以ChatGPT、GPT-4为代表,提升了情绪提取准确性。尤其GPT-4表现出高夏普比率,表明其在金融预测中效果优异。

- 将数值数据与文本数据集成的多模态模型显示出优异性能,但受限于缺少大规模、时间对齐且情绪标注完备的数据集。报告指出现有数据集规模小、缺乏价格关联或情绪评分,限制了深度学习模型训练和验证。

结论:FNSPID应运而生以填补这一关键空白,为金融领域复杂情绪与价格联动的预测提供必要材料。[page::0,1]

2.2 现有金融数据集比较

  • 表1对比了FNSPID与其他知名金融新闻与价格数据集(如Reuters、Benzinga、Bloomberg、Lenta、Lutz、Farimani等)。

- FNSPID在新闻条数(约1569万条)、股票价格联动和新闻带时间戳等维度均遥遥领先,且涵盖多语言(英语和俄语),并且具备新闻摘要与情绪分数标注等独特功能。
  • 其他数据集或缺交易价格关联,或规模偏小,或提供的只是新闻标题、句子级别情绪,限制了复杂时间序列的深度分析与大模型训练。

- 报告强调FNSPID不仅是用于机器学习模型训练的金矿,也方便开展情绪分析、市场趋势研究和风险管理等多方面工作。

综述:FNSPID的规模、数据丰富性及时间序特征,使其成为当前最具代表性的金融时序多模态数据资源。[page::1]

3数据集构建细节

  • 新闻数据采集以NASDAQ为主,结合历史合集数据(Bloomberg、Reuters、Benzinga、Lenta)保证数据多样性与连续性。

- 数值数据来源为Yahoo Finance API。
  • 新闻文本经过4种摘要算法(LexRank、Luhn、LSA、TextRank)进行精炼,减少原文冗余,优化大模型输入,同时提高后续情绪分析稳定性。

- 为情绪定量化引入ChatGPT打分方案,分值1~5涵盖负面至正面情绪,结合平均多个新闻分数以保证时间序连续平滑。使用指数衰减模型填补无新闻日的情绪数据,公式($St=3+(S0-3)e^{-\lambda t}$)令情绪逐步回归中立,增强平滑性与逻辑合理性。
  • 遵守严格的伦理规范(robots.txt、大数据隐私合规、版权限制),确保数据合法、合规采集。


该过程确保了新闻和价格数据的充分对齐和情绪量化,使FNSPID具备时间序连续性和多模态特征。[page::2,3]

4 FNSPID数据特性分析

  • 数据总量约30GB,涉及S&P 500前50大权重股票的40万余篇情绪标注新闻。

- 语言分布以英语为主(95%),俄语占5%,跨国数据覆盖提升适用范围。
  • 如图5所示,62%新闻无关联股票代码,38%含股票Symbol,但全部新闻均提供URL。

- 新闻文章时间分布考察(图6)显示1999年至2023年间稳步增长,2010-2015年新闻数量峰值较高,近年有所波动,反映市场动态与资讯发布趋势。
  • 通过此多元统计分析,FNSPID展示了其兼容多语言、多渠道且具备价格对齐优势的独特多维特征。


这些数据特征奠定了FNSPID在金融情绪分析和价格时间序列预测研究中的实用基础。[page::4]

5 实证检验


5.1 数据量影响测试

  • 利用FNSPID Task 3数据,实验采用六种深度学习模型(LSTM、GRU、RNN、CNN、Transformer、TimesNet)预测未来3天的收盘价,输入包括开盘价、收盘价、成交量与情绪得分。

- 分别在5、25、50支股票样本上训练,训练epoch均为100,评价指标包括R^2(拟合优度)、均方误差(MSE)、平均绝对误差(MAE)。
  • 结果显示:数据量扩充从5支到25支股票样本平均R^2提升约6.29%;Transformer表现最佳(R^2=0.988),明显优于LSTM(R^2=0.856)和GRU(R^2=0.827)。RNN模型整体表现最差(R^2=0.617)。

- 说明数据量增加显著提升模型在股价走势预测中的准确性,验证了大规模数据对学习复杂市场模式的价值。Transformer模型的优势体现了自注意力机制对捕捉长短期依赖的强大能力。

5.2 情绪质量测试

  • 对比经过ChatGPT(FNSPID Task 3)和传统TextBlob算法标注的情绪数据对模型训练的影响,发现:

- ChatGPT标注的情绪数据对Transformer模型预测准确率提升约0.2%。
- TextBlob标注情绪则反而有负面影响,导致整体性能下降约1.16%。
  • 进一步观察:只有Transformer模型能较好利用情绪信息,其他模型可能将情绪视为噪声。模型规模较小或数据集较小时,LSTM表现可能优于Transformer,但数据集增大后Transformer优势显著。

- 这突显高质量情绪标注对于现代复杂模型的重要性,以及基础情绪标注工具的局限。

总结:高质量大规模数据和情绪信息合并推动股价预测准确率提升,Transformer模型尤为显著。[page::5,6]

---

三、图表深度解读



表1:数据集综合对比

  • 展示FNSPID与现有多个金融新闻数据集的对比。

- FNSPID在新闻数量(1569.8万条)、股票价格时间戳、文本类型(整文章)、统一情绪评分、URL链接及多语言支持方面均优于同类。
  • 该表强调FNSPID的丰度和多样性弥补了其他数据集时效性和规模不足的缺陷。


图1:FNSPID数据采集流程图

  • 描绘从财经网站(NASDAQ、Yahoo、CNBC等)爬取新闻标题及内容,并通过API收集数字股票价格的两条平行路径。

- 最终通过时间对齐单元整合两个数据流形成数据集。
  • 该流程凸显数据源多样性、集成手段及确保时间序同步的重要性。


图3 & 表:新闻摘要与情绪标注示例

  • 表格示例展示如何将新闻文本通过LSA、Luhn、TextRank等自动摘要算法缩减,供chatGPT情绪打分使用。

- 通过示例新闻结合URL、股票Symbol,展现数据完整性和可追溯性。
  • 附示例chatGPT提示框架,说明使其稳定输出1-5区间情绪评分的文本设计思路。


表2:股票价格样本数据

  • 展示标准的日间股票数据,包括开盘价、最高价、最低价、收盘价、调整后收盘价及交易量。

- 说明价格数据的多维度,支持多角度时间序列分析。

图4:情绪评分分布条形图

  • 展示ChatGPT打分情绪的频率,接近正态分布,中性(3分)新闻最常见(37.08%),极端情绪较少。

- 该分布体现市场新闻相对稳定及多样化情绪体现。

图5:FNSPID数据统计概览

  • 四个子图分别说明:

- 新闻中含有股票标识的占37.54%,无标识的占62.46%。
- 新闻语言主要是英语(95%),俄语占5%。
- 有效URL数据完整。
- 新闻中完整文章所占约25%,余为标题或摘要。
  • 有助理解数据集中股票关联度及语言结构,说明跨市场和跨语种适用性。


图6:新闻数量时间分布(1999-2023)

  • 柱状图用对数刻度展示新闻活跃度逐年变化。

- 2000年以后增长迅速,2010-2015间达到顶峰,后略有波动,表明市场财经新闻覆盖扩张及信息爆炸趋势。

图7:实验模型流程

  • 描述用新闻文本摘要+ChatGPT情绪+股票价格交易数据作为输入,训练6种深度学习模型(LSTM、GRU、RNN、CNN、Transformer、TimesNet)预测未来股价。

- 列举基线(仅价格成交数据作为输入)对比组,验证情绪数据贡献。

表3:模型预测性能对比

  • 提供不同股票样本量(5,25,50)和情绪数据质量(ChatGPT vs TextBlob)下各模型MAE、MSE、R^2详细结果。

- 结果显示Transformer在带情绪数据情况下,有显著提升,文本质量差的情绪数据反而减弱性能。
  • TimesNet表现不稳定,LSTM适合小数据集。

- 该表为FNSPID数据在金融预测领域应用的权威性能基准。

---

四、估值分析



本报告核心不涉及传统金融估值,而是构建金融大数据资产(FNSPID)本身价值。其“估值”体现在:
  • 数据规模(数千万条)、多样性(多语言、多渠道)、完整性(价格新闻关联)和标注质量(chatGPT情绪评分)

- 通过实证分析中特定模型预测性能的显著提升,隐含FNSPID数据资产对金融预测模型效力的估值
  • 采用Transformer模型的高精度表现突出了其对先进算法训练的支撑价值

- 基于模型训练效果的交叉验证视作“估值”敏感性检验,说明具体机器学习技术对数据价值的实现程度

---

五、风险因素评估


  • 情绪标注准确性风险

传统算法(如TextBlob)情绪分析表现不佳,ChatGPT虽更优但存在输出不稳定的问题,情绪评分可能受文本长度、摘要质量影响,导致噪音。
  • 政策与数据访问风险

采集自NASDAQ等网站,未来若网站政策变动,数据采集可能受限。
  • 模型过拟合风险

虽然大数据下性能提升明显,但可能存在数据分布偏移,如未来市场结构改变导致模型预测失效。
  • 伦理与隐私风险

报告通过匿名化处理和符合GDPR、CCPA等法规降低隐私泄露风险。但预测模型潜在滥用(误导交易、市场操纵)仍需监管警惕。

缓解措施主要依赖对模型持续监测、更新以应对市场变化,以及透明数据标记和伦理审查。[page::3,6,7]

---

六、批判性视角与细微差别


  • 作者重视数据规模和多模态集成的重要性,但也正视了情绪分析稳定性的技术限制,坦言当前ChatGPT情感评分虽有实用价值,尚未完全解决长文本稳定性和标注噪音问题。

- 实验结果的性能提升幅度有限,部分原因归咎于模型本身已经拟合度较高及新闻信息对股票价格存在滞后性。
  • 在时间序列的短期预测场景,大模型优势明显,但小数据场景或许LSTM更优。

- 报告未深度探讨投资者行为多样性及新闻质量差异对模型影响,未来可加以拓展。
  • 多数分析基于股票行情及新闻已过去的数据,实际市场高频异动及黑天鹅事件仍是挑战。

- 报告自带学术中立性,拒绝夸大其词,数据视角具有鲜明客观性,于未来研究具有价值方向指导意义。

---

七、结论性综合



本报告系统构建并发布了大规模、多样性强、同时整合了金融新闻文本与股票价格的时间序列数据集——FNSPID,覆盖1999至2023年S&P500中4775公司,是迄今最大规模且唯一同时包含全面情绪指标与价格数据的金融预测数据集。

报告详细阐述了数据采集、文本摘要、多算法情绪量化、缺失值处理的设计与实现,保证数据质量和连续性。实证实验利用先进的深度学习模型(Transformer等)在不同数据规模和情绪质量维度进行验证,证明了数据规模和质的提升对于股价预测准确率的积极作用。尤其是高质量情绪标注为基于Transformer的模型提供了实质性改进的信号,预示多模态结合技术的巨大潜力。

图表分析进一步呈现了数据的语言分布(主英语次俄语)、标识股票的新闻占比(37.5%)、新闻量逐年变化趋势、情绪分数分布近似正态、中立情绪占比大等底层特征,帮助理解数据结构和模型输入特性。预测性能表明Transformer模型领先传统的RNN、LSTM,更胜新兴的TimesNet模型,充分展示了FNSPID的推动价值。

此外,报告全面论述了伦理合规、隐私保护及数据滥用风险,在技术突破的同时,守住了金融数据科学研究应有的道德底线。对于未来,作者提出构建自动更新系统、拓展数据覆盖及深化多模态模型研究,将推动金融市场分析迈向更精准、全面与智能化的新时代。

最终,FNSPID不只是学术研究的数据基础,更是金融智能预测、市场情绪研判与风险管理的基石,极具革命性和广泛应用前景。

[page::0–7,9]

---

附录说明


  • 附录A.1与A.2详细描述了传统金融资产定价模型(FFE与APT)公式与基于sumy工具的加权摘要技术。

- 附录A.3讲解了模型输入数据的归一化方法(相对变化率与线性缩放)。为后续机器学习模型训练规范输入提供理论基础。

---

总结



本篇对FNSPID报告进行了全面、深入的解析,涵盖报告各章节的内容、数据解读、方法论、实验验证与伦理考量。除此之外,保持了对专业金融和金融工程术语的清晰阐释,确保非专业读者亦可理解其学术与实际价值,特别强调了图表和实验评估的深层洞见。此类大型时序整合金融新闻与价格数据集的创建与验证,预示着金融预测研究进入基于深度多模态人工智能的新时代。

报告