FinMarBa: A Market-Informed Dataset for Financial Sentiment Classification
创建于 更新于
摘要
本文提出了FinMarBa,一个基于真实市场反应自动标注的金融情绪分类数据集,消除人工标注偏差,涵盖2010-2024年彭博市场摘要新闻。通过采用滚动窗口与分位数法对标的行情变化进行情绪分类,FinMarBa在情绪标签分布、覆盖范围及预测能力上显著优于传统的人为标注数据集Financial-Phrasebank,并通过实证回测验证了其优越的风险调整收益表现,验证了市场驱动标注在金融情绪分析中的有效性和鲁棒性 [page::0][page::1][page::3][page::4][page::5][page::6]
速读内容
FinMarBa数据集介绍与创新点 [page::0][page::1]

- 利用彭博市场摘要新闻(2010-2024)构建大规模(6万余条)金融情绪数据集。
- 采用完全自动化、基于股票价格变动的量化标注方法,避免人工注释主观偏差。
- 实现的标注反映了真实市场情绪反应,更适合金融情绪分类模型训练与评估。
自动化情绪标注方法与数据示例 [page::2][page::3]
- 使用GPT-4识别新闻标题相关股票代码。
- 根据新闻发布当日及之前五年股价变化的分位数(30%和60%)对新闻进行正、负及中性分类:
$$
C(T{k},\Delta P{T{k}})=\left\{
\begin{array}{ll}
+1 & \text{if } \Delta P{T{k}}>Q{0.6,T{k}} \\
-1 & \text{if } \Delta P{T{k}}
{0.3,T_{k}} \\
0 & \text{otherwise}
\end{array}
\right.
$$
- 该方法首次在金融领域应用,结合全球主流标的包含股票、商品、债券及加密资产。
- 市场覆盖以美国标的为主,体现全球市场主导地位和多元资产结构。
数据集标注分布与区域覆盖对比 [page::4]
| 情绪类别 | Financial-Phrasebank (%) | FinMarBa (%) |
|----------|-------------------------|--------------|
| 正面 | 28.13 | 42.11 |
| 负面 | 12.46 | 31.43 |
| 中性 | 59.41 | 26.45 |
- FinMarBa标签分布较为均衡且体现长期股票市场正面偏好。
- 词云显示FinMarBa覆盖以“US”、“stocks”、“dollar”、“oil”等为主,更符合全球金融市场焦点,优于以欧元区为主的Financial-Phrasebank。
模型微调与量化回测表现优越 [page::5]
- 同时训练两个BERT模型:FinBERT(基于Financial-Phrasebank)与FinMarBaBERT(基于FinMarBa)。
- 以2019至2024年S&P500为测试期,利用情绪新闻构建日得分:
| 日期 | 正面新闻数 | 负面新闻数 | 日得分 |
|------------|------------|------------|---------|
| 2019-12-12 | 11 | 3 | 0.57 |
| 2019-12-13 | 6 | 6 | 0.00 |
| 2023-12-01 | 8 | 3 | 0.45 |
- FinMarBaBERT信号的夏普比率达0.30,金融短语库模型为-0.13,说明利用FinMarBa数据训练的模型显著提升风险调整后的收益表现。
- t统计值和p值验证了该差异的高度统计显著性。
鲁棒性测试及未来展望 [page::5][page::6]
| 窗口天数 | 10%交换率 | 20%交换率 | 30%交换率 | 40%交换率 | 50%交换率 |
|----------|-----------|-----------|-----------|-----------|-----------|
| 5 | 0.50 | 1.03 | 0.77 | 1.52 | 1.94 |
| 10 | 0.45 | 0.69 | 0.61 | 1.22 | 0.62 |
| 15 | 0.52 | 0.77 | 0.44 | 0.58 | 0.39 |
- 利用不同时间窗口及信息扰动验证情绪信号稳定性,FinMarBa在未来窗口的表现优于过去窗口,支撑市场驱动标注的有效性。
- 未来工作拟拓展至更多市场和资产类别,结合更先进的机器学习方法,持续更新数据集提升实用性。
深度阅读
金融研究报告深度分析报告
根据提供的《FinMarBa: A Market-Informed Dataset for Financial Sentiment Classification》研究论文内容,以下为详尽的分析解构,涵盖报告元数据、章节详解、图表分析、估值及风险因素剖析、批判性视角及总结。
---
1. 元数据与报告概览
- 报告标题:《FinMarBa: A Market-Informed Dataset for Financial Sentiment Classification》
- 作者:B. Lefort, E. Benhamou, B. Guez, JJ. Jacques Ohana, E. Setrouk, A. Etienne
- 机构:Ai For Alpha、Centrale Supélec、Paris Dauphine PSL
- 发表时间与会议:IJCAI 2025——FinLLM Workshop,2025年8月28日,广州,中国
- 报告主题:金融情绪分类,特别关注基于真实市场反应的金融新闻情绪标签数据集的开发与验证。
核心论点与贡献
- 现存金融情绪分类数据集基于人为注释,存在主观偏差,无法准确反映市场真实反应。
- 提出FinMarBa,一个基于市场行为自动标注的金融新闻情绪大规模数据集,消除人工偏见,通过量化市场表现形成标签。
- 该数据集基于高质量的彭博社市场概览新闻(Bloomberg Market Wraps),涵盖全球市场动态。
- 通过实证验证,FinMarBa的标注优于传统人工注释,提升了金融情绪信号的预测能力。
- 开源部分数据与微调模型,支持金融NLP社区研究。
总体上,报告意在展示基于市场反应的情绪标注在准确性和效用上的优势,促进更优的金融情绪模型研发。[page::0,1]
---
2. 章节逐步深度解读
2.1 引言部分(Introduction)
- 通过实际例子说明人类注释与市场反应存在偏差。例如,某篇新闻被人工标注为负面,股价却上升,显示人工标注定性无法准确映射市场行为。
- 传统金融文本情绪分类依赖专家或学生主观分类,存有两种限制:人类偏见和标注规模受限,且存在时间一致性差。
- 阐述使用大语言模型(如GPT-4)结合金融市场数据自动标注情绪的创新必要性。
- 选用Bloomberg Market Wraps作为数据源,优势在于覆盖范围广、新闻质量高、市场影响力强,不同于更偏社交媒体或区域性数据集。
此部分明确了问题背景、人类标注局限以及自动市场驱动标注的理论基础和动机。[page::0]
2.2 相关工作(Related Works)
- 承认金融文本情绪分析广泛应用于量化投资,已有数据集主要基于人为注释(如Financial-Phrasebank,约5000句,欧洲市场偏向)。
- 社交媒体数据集存在噪声与非市场参与者观点的局限,不具备市场反应标注。
- 确立了市场驱动标注的必要性,弥补现有数据集的缺陷。
展示现有金融情绪数据集的不足,强化本研究创新点。[page::1]
2.3 数据集构建(Dataset Construction)
- 数据来源:2010-2024年彭博市场概览,共3,700日报,包含约200万条新闻摘要。
- 数据处理:
- 不分析单条新闻,而是利用专家筛选的每日摘要,高质量筛除噪音。
- 利用GPT-4进行“提炼标题”(Headline Generation),从每日报告提取简洁且单一信息的摘要标题,增强数据的精准性和表达力。
- 标注流程:
- 利用GPT-4自动识别摘要对应的股票代码(Ticker)。
- 采用量化方法,以发布翌日股票价格变动相对于历史5年滚动窗口的30%与60%分位点,分别标记为正面、负面或中性情绪。
- 该方法体现“因市场反应而标注”的核心理念。
- 示例和数据特征:
- 数据库中包括多种资产类别代码,主要覆盖美国股票市场,且涵盖全球多地区及多资产类别(股票、债券、商品、加密货币等)。
- 表1展示样例新闻与对应代码,图1展示主要代码的区域分布,突出美国市场的主导地位。
整体构建流程结合金融专家判断和自动化NLP,创新性地实现市场驱动自动情绪标注。[page::1,2,3]
2.4 FinMarBa数据集统计与分析(The FinMarBa Dataset)
- 数据量巨大(61,252条带注释标题,2010年至2024年)。
- 统计分布明显区别于Financial-Phrasebank:正面新闻比重明显较高(42.11% vs. 28.13%),中立比例显著降低,符合长期资本市场的正偏态特征。
- 词云对比(图5与6)揭示FinMarBa更聚焦美国市场和关键经济指标(如美元、石油、股票指数),反映了更合理且市场相关的地域和主题覆盖。
- 与传统数据集相比,FinMarBa显示出更符合市场实际的统计特性和全球覆盖视角。
该部分用实证数据展示了新数据集的优势,强化了其实用性和科学性。[page::3,4]
2.5 FinMarBa标注方法评价(Proof of the FinMarBa Annotation Contribution)
- 方法:
- 利用FinMarBa训练BERT模型(FinMarBaBERT)。
- 采用2019-2024年S&P500指数进行基于情绪信号的回测,信号基于每日所有正负情绪标题的净比率计算。
- 与基于Financial-Phrasebank训练的FinBERT做对比,验证市场预测能力。
- 结果:
- FinMarBaBERT的年化夏普比率为0.30(高风险调整收益),Financial-Phrasebank为-0.13(负收益,表示噪音)。
- 差异高度统计显著(p值远小于0.01)。
- 稳健性检验:
- 采用随机交换标签的“滑动窗口实验”验证模型性能稳健性。
- 未来方向上,FinMarBa表现更优且改善随交换率增高而显著,支持市场驱动标签预测能力强且不易受噪声影响。
该章节用金融投资实测指标佐证新数据集的标注质量和预测价值,极具实用意义。[page::4,5,6]
2.6 总结与局限(Conclusion and Limitations)
- FinMarBa利用市场反应实现自动注释,有效避免人工主观偏差,数据与市场偏好更贴切,提升了模型预测能力。
- 开源数据与模型助力学术和实务研究进展。
- 局限包括:仅覆盖公开市场与主流金融产品,自动化注释可能忽略文本细节,历史数据主导未必适用于前所未有事件,所依赖的彭博数据也可能含有偏差。
结论体现了该研究创新和实用价值,同时对数据集适用范围和潜在风险保持了谨慎。[page::6]
---
3. 关键图表深度解读
图1. 主要代码按区域分布 (page 2)

- 描述:该柱状图展示了FinMarBa数据集中最常出现的股票代码及其归属地区的比例。橙色代表美国、红色为亚洲、绿色为欧洲、粉色新兴市场、蓝色全球资产类别、青色加密货币。
- 趋势:美国市场(SPY、^GSPC等)占据明显主导地位,多个国际资产(ACWI全球指数、债券TNX等)占有次要比重,涵盖了多样资产。
- 意义:反映金融新闻的影响力主要围绕美国股市展开,同时兼顾全球市场和多资产。说明数据集适合制作偏重美国主导的金融情绪信号。
- 联系文本:支持报告中关于数据广泛市场覆盖和以美国市场为主的核心论点。[page::2]
表1. 数据样例与对应股票代码 (page 2)
| 日期 | 标题 | 代码列表 |
|------------|-----------------------------------------------------|-------------------|
| 2010-01-04 | Dollar Slumps Amid Worldwide Manufacturing Improvement | [UUP, ACWI] |
| 2022-08-17 | S&P 500 Rises 1% to All-Time High, Treasuries Lose Gains | [GSPC, TNX] |
| 2024-01-31 | West Texas Intermediate Crude Falls 1.3% to $76.83 a Barrel | [CL=F] |
- 展示了市场新闻对应多种资产代码,体现新闻信息跨市场传播性和多层次影响。[page::2]
图2. 自动标注时间顺序 (page 3)

- 利用时间轴说明新闻发布时间点t,历史5年价格(t-1250到t)用于构建价格变化分布,t到t+1的收益与历史分位点对比完成标注。
- 直观展示市场驱动标注的时间逻辑与滚动窗口机制。[page::3]
图3. 标注流程示意图 (page 3)

- 文字变化计算→分位点确定→条件判断(>Q0.6为正,
- 此流程图清楚表明标注自动化及基于价格变化量化指标进行决策的技术细节。[page::3]
图4. 人工注释与市场驱动注释流程对比 (page 4)

- 传统方法为“人类读取→人类解释→人类标注”三步,存在主观偏见且耗时。
- 新方法为“识别代码→评估代码返还→机器标注”,减少主观因素、加速流程。
- 图中的实线和虚线框清晰区分新旧流程,强化自动标签优势。[page::4]
表2. 情绪标签比例对比
| 情绪类别 | Financial-Phrasebank (%) | FinMarBa (%) |
|----------|--------------------------|--------------|
| 正面 | 28.13 | 42.11 |
| 负面 | 12.46 | 31.43 |
| 中立 | 59.41 | 26.45 |
- FinMarBa在反映市场长期“正面偏差”上更合理,且中立标签显著减少,意味着其情绪标签更明确和聚焦。[page::4]
图5&6. 词云对比(Financial Phrasebank与FinMarBa)(page 4)
- Financial Phrasebank以欧洲货币和地区(eur, finland, finnish)为主,反映明显地域偏向。
- FinMarBa则突出美国市场相关词汇(US, sp, index, stocks, dollar, oil),更贴合全球市场,尤其美国市场的主导地位。
- 词频体现数据集地域覆盖和信息核心区别。[page::4]
表3 & 表4. 评分示例与回测指标(page 5)
- 表3示例展示每日正负新闻数及计算得出当天情绪得分($S$),直观说明模型从多标题构造单日情绪信号的过程。
- 表4总结回测Sharpe比率对比,FinMarBa达到0.30,表明优于-0.13的Financial-Phrasebank,统计显著,验证FinMarBa数据的预测价值。[page::5]
表5. 不同窗口和交换率下Sharpe比率差异(page 6)
- 显示在多种时间窗口(5、10、15天)和标签交换率(10%-50%)条件下,FinMarBa相较于Financial-Phrasebank均有显著优势。
- 预测性能随着“未来信息”比例增加而提升,实验证实FinMarBa在预测市场情绪的稳健性和优越性。[page::6]
---
4. 估值分析
本报告主要聚焦于金融文本情绪分类数据集开发及其预测信号的效果评估,未涉及传统意义上的公司财务估值分析(DCF、P/E等),因此无估值模型内容。
报告以Sharpe Ratio(风险调整收益)作为投资信号效果的量化评估指标,说明了该指标计算方法和统计显著性测试,基于情绪分类模型产生的每日投资信号构造策略,评测其长期投资表现的稳定性和有效性,体现对金融模型实际应用价值的重视。
---
5. 风险因素评估
报告中关于风险因素的讨论相对简略,但明确指出以下限制:
- 数据主要来源于公开上市公司及其衍生金融资产,私有企业或信息透明度低的领域覆盖不足。
- 自动化标注虽然减少人类主观偏见,但可能无法捕捉新闻中复杂和微妙的语境与背景,存在误分类风险。
- 采用历史市场反应作为标签,无法充分考虑未来未曾发生的极端事件或市场结构性变化,限制模型泛化能力。
- 数据依赖于Bloomberg市场综述,若该源本身存在系统偏差或错误,可能传导至数据集。
对可能风险未提供具体缓解策略,但报告态度谨慎,识别了局限性,提示读者需结合具体应用情境审慎使用。[page::6]
---
6. 批判性视角与细微差别
- 创新性与局限平衡:报告强调了市场驱动标注的创新优势,尤其在消除人类偏见方面表现突出。然自动标注依赖价格变动,假设新闻是引起价格变动的唯一或主要因素,存在理想化假设的风险,实际市场价格还受宏观经济、政策、情绪共振等多重复杂因素影响。
- 数据代表性问题:虽然覆盖全球,但以美国市场为主,可能不完全适用于其他地区或非股票资产类别的市场情绪,有潜在的适用边界。
- 市场反应滞后及因果性:虽然采用翌日价格变动判断情绪,部分新闻影响可能更长远或非线性,使用单日涨跌可能忽略一些事件影响;更精细的标注策略或许可提升模型表现。
- 训练测试时间划分合理:为了避免信息泄漏,采用2019年前训练,后期测试,布局严谨。
- 开源承诺利于社区驱动:公开数据与模型促进科研透明与复制,利于领域进步。
整体看,报告立场严谨,对假设与方法潜在限制有自我意识,平衡创新优势和固有限制,体现学术规范。[page::0-6]
---
7. 结论性综合
《FinMarBa》报告响应了金融文本情绪分类领域中长期存在的人类标注主观偏差和数据规模受限问题,提出基于实际市场反应的自动化标注方法,实现了大规模、高质量的情绪数据集构建。核心创新点包括:
- 市场反应驱动标注方法, 以每条新闻发布后对应股票代码的翌日价格涨跌相对5年滚动历史分位点划分情绪标签,科学客观,去除主观偏差。
- 选用彭博市场综述作为数据来源,覆盖全球重要市场与多资产类别,确保新闻内容权威且市场相关。
- 借助GPT-4自动提炼标题与识别代码,实现从亿级数据中精准(单信息)摘要,结构合理。
- 数据统计特征符合长期股市“正向偏斜”行为,词频显示从欧洲向美国市场主导的转变,符合全球金融市场真实格局。
- 利用FinMarBa 数据集训练得出的模型,在实际投资信号回测中表现优异,Sharpe比率远超传统人工标注数据集,且经多轮稳健性测试验证,结果统计显著,支撑方法有效性。
- 开源数据与模型促进科研共享,推动金融NLP模拟与投资决策系统的进步。
图表解析具体彰显了数据结构合理性、标注方法科学性及模型实用性:
- 图1、表1体现了数据的广泛覆盖与多资产关联;
- 图2、图3用时间序列与决策流程形象展示市场驱动标注机制;
- 图4直观对比人类与机器注释流程演变,突出自动化优势;
- 表2以及图5、6揭示数据集统计语义与地域焦点差异;
- 表3-5配合回测及稳健性指标,验证情绪信号的强预测能力。
同时报告也坦承了自动标注存在上下文复杂度不足、潜在误标、历史偏见等局限,提示未来工作需要结合更丰富语境和跨市场扩展,甚至引入更高级机器学习模型优化。
综上所述,FinMarBa代表金融情绪分析数据集构建的重大进展,为金融信息理解与投资决策提供了更科学、客观和可扩展的基础,具备较高的研究价值与实用潜力。[page::0-6]
---
结束语
本次分析覆盖了全文所有关键章节与图表内容,详解了数据集构建方法、市场驱动标注原理、统计分析与投资信号评测,清晰透彻地展示该研究的科学基础与显著成果,兼具实践和理论意义。上述分析严谨客观,力求帮助金融与人工智能领域研究者充分理解FinMarBa项目的价值与应用前景。