FinDKG: Dynamic Knowledge Graphs with Large Language Models for Detecting Global Trends in Financial Markets
创建于 更新于
摘要
本报告提出了结合大语言模型(LLMs)与图神经网络(GNN)的动态知识图谱构建与学习方法。通过自研的集成上下文知识图谱生成器(ICKG)实现了对金融新闻语料的动态知识图抽取,产生了开放金融动态知识图谱数据集FinDKG。基于KGTransformer的图注意力模型设计,结合元实体信息,实现了动态知识图的高效学习和准确链接预测,优于现有模型表现。利用FinDKG进行主题投资建模,构建AI主题投资组合,在历史回测中显著跑赢市场与同类ETF,显示出强大的趋势发现与投资策略生成能力[pagination::0][page::2][page::5][page::6][page::7]。
速读内容
- ICKG大语言模型开发与知识图谱构建流程 [page::1]

- 通过GPT-4对5000篇金融新闻生成知识图抽取数据。
- 筛选高质量抽取结果并用Mistral-7B模型进行监督微调。
- 形成可自动化生成金融动态知识图的开源模型ICKG。
- FinDKG金融动态知识图数据集定义及架构 [page::2][page::3]

- 收集40万篇华尔街日报金融新闻,时间跨度1999-2023年。
- 抽取金融特定的15类关系与11类实体,如公司、政府、事件、经济指标等。
- 采用Sentence-BERT进行实体消歧与文本到知识图转换。

- 展示2023年1月的子图,反映中美地缘政治、通胀及新冠疫情影响。
- KGTransformer图神经网络架构设计及动态学习机制 [page::2][page::4]
- 采用多头图注意力机制结合实体元类别信息提升建模能力。
- 综合结构嵌入与时间嵌入,通过RNN捕捉时序演变。
- 基于负样本对数似然最大化联合优化链接推断与时间概率建模。
- 链接预测实验与FinDKG效果验证 [page::5][page::6]
| 数据集 | YAGO | WIKI | ICEWS14 | FinDKG |
|----------|--------|--------|---------|---------|
| KGTransformer MRR | 51.33 | 44.32 | 23.98 | 12.45 |
| Hits@3 | 59.22 | 49.27 | 26.89 | 13.76 |
| Hits@10 | 67.15 | 53.81 | 41.22 | 21.13 |

- KGTransformer在引入元实体信息的FinDKG中较时间基线模型提升近10% MRR。
- 其他基准数据集上同样表现出较强优势,ICEWS14数据与元实体缺失相关表现略逊。
- 金融趋势识别与主题投资应用 [page::5][page::6][page::7]

- 利用FinDKG时间片知识图分析COVID-19事件中心性指标,指标峰值与重要疫情节点高度契合。

- 构建AI主题投资组合FinDKG-AI,基于KGTransformer预测AI相关股票未来影响概率加权。
- FinDKG-AI结合滚动窗口训练,采用标准化持仓权重,月度再平衡。
| 组合 | 年化收益率 | 年化波动率 | Sharpe比率 | 最大回撤 |
|------------|------------|------------|------------|-----------|
| SPY | 18.6% | 17.1% | 1.084 | -16.7% |
| QQQ | 29.8% | 22.5% | 1.323 | -21.6% |
| ARKK | 20.6% | 47.9% | 0.431 | -43.2% |
| IRBO | 20.4% | 25.9% | 0.786 | -24.9% |
| IGPT | 18.7% | 22.8% | 0.820 | -20.0% |
| EvoKG | 23.5% | 20.2% | 1.163 | -19.1% |
| FinDKG-AI | 39.6% | 21.9% | 1.810 | -18.2% |
- FinDKG-AI组合在风险调整下优势明显,超越市场基准及主流AI主题ETF。
- 收益大幅提升与OpenAI ChatGPT发布时点高度吻合,展现趋势捕捉能力。
深度阅读
深度解析报告:《FinDKG: Dynamic Knowledge Graphs with Large Language Models for Detecting Global Trends in Financial Markets》
---
1. 元数据与概览
报告标题: FinDKG: Dynamic Knowledge Graphs with Large Language Models for Detecting Global Trends in Financial Markets
作者: Xiaohui Victor Li, Francesco Sanna Passino
机构: Imperial College London
日期: 未明确指明,报告内容基于2023-2024年的研究进展
研究主题: 结合大规模语言模型(LLMs)与动态图知识图谱(DKGs),探索金融市场趋势的动态检测与应用,主要针对金融新闻文本数据构建动态金融知识图谱FinDKG,并提出新的图神经网络模型KGTransformer进行图谱学习和应用。
核心论点及目标:
报告围绕三个主要贡献点构建:
- 提出一种结合元实体信息的图注意力神经网络架构——KGTransformer,用于动态知识图谱的表示学习,提升时序知识图谱中的连接预测性能。
2. 构建一个开源的微调大语言模型ICKG(Integrated Contextual Knowledge Graph Generator),以自动化生成动态知识图谱。
- 利用ICKG从大量金融新闻文本中生成开源金融动态知识图谱FinDKG,并利用KGTransformer对其进行分析,验证在主题投资中优于现有AI主题ETF表现。
该报告希望传递的主要信息是:通过结合大语言模型自动构建金融领域动态知识图谱,并利用基于元实体信息增强的图神经网络模型,能够更好地捕捉金融市场状态与演变趋势,实现对未来事件更准确的预测与应用,如主题投资等方面优势显著。[page::0,1,2,5,6]
---
2. 报告章节深度解读
2.1 结构与任务背景(第0-1页)
报告首先清晰定义了知识图谱(KG)中实体和关系的基础构造,进而提出动态图知识图谱(DKG)的四元组表示方法,即将时间戳引入三元组结构中,使得KG可以刻画时间动态。
报告阐释了动态图知识图谱的建模任务为根据历史图谱数据训练动态图神经网络(GNNs),捕获结构和时间演变特征。特别点在于引入“元实体”(meta-entities)这一概念,将实体与关系进一步分类,实现基于类别的异构图建模,提升对复杂金融实体多样性的适应能力。
大语言模型(LLMs)如BERT、GPT系列及其金融专用版本(FinBERT、FinGPT)在金融文本分析中的应用被强调,但LLMs结合DKG的研究较为有限。故提出通过定制微调,使用大型开源LLM构建知识图谱(ICKG),最终形成FinDKG开源数据集。[page::0,1]
关键论据:
- 介绍KG与DKG的基本数学框架及其在捕捉时序事件方面的优势。
- 以元实体引入丰富的类别信息,结合图注意力机制提升表征能力。
- LLMs的综述和现有短板为本工作定制化、微调LLM并生成知识图谱提供动因。
2.2 相关文献回顾(第1页)
重点回顾了图表示学习领域的发展,特别是应用于知识图谱的嵌入技术和时间维度的拓展。金融知识图谱方面,说明现有方法多静态,不足以应对金融网络的动态异构性,动态方法尚不充分。引述了金融文本分析中LLMs对情感分析及股票预测的应用,但仍存在解释性及开源受限的问题。
支撑观点:
- 金融系统的动态、异构网络属性使得动态图神经网络成为必要。
- 传统静态KG和LLM应用不足,提供本研究空间。
- 开源、可微调的LLM对于金融专门场景尤为重要。
2.3 ICKG:微调LLM构建知识图谱(第1页)
提出你们的自设计微调管道“ICKG”。流程如下:
- 使用GPT-4基于5000篇精选开放金融新闻构建初步三元组和元实体的指令式数据集。
- 根据指令格式和四元组数量过滤输出提高质量。
- 使用高性能开源模型Mistral 7B进行10小时微调,获得ICKG LLM。
图1示意了训练流程,图2展示实际文本输入和生成的知识图谱结构实例。
关键词解释:
- 指令微调(Instruction-tuning): 利用具体任务指示调整预训练模型,以提高领域特定执行能力。
- 元实体分类: 定义实体类别(如企业、人、事件等),利于后续图模型建模层面。
此做法实现了对非结构化文本(新闻)到结构化图谱的高质量自动映射,规模和准确度均领先传统任务驱动抽取方法。[page::1,3]
2.4 FinDKG数据集建设(第2页)
构建了大型的金融跨年动态知识图谱FinDKG,涵盖1999-2023年约40万篇金融新闻文本。具体步骤:
- 使用ICKG抽取实体关系四元组及其时间戳。
- 关系限制为15种典型的金融相关语义关系(如拥有、宣布、控制、影响等),详见表1。
- 实体标签包含12种金融内涵分类(如政府、公司、事件、经济指标等),详见表2。
- 利用Sentence-BERT完成实体消歧,确保同一实体统一编码。
- 图3展示2023年1月的FinDKG子图,反映地缘政治、经济通胀和疫情背景。
该数据集为研究金融动态知识图谱提供稀缺且有代表性的公开资源。[page::2,3]
2.5 KGTransformer:图学习模型(第2-4页)
提出针对DKG的Attention机制GNN模型——KGTransformer,特色包括:
- 多头注意力机制(multi-head attention)用于多视角捕获节点间复杂依赖。
- 集成元实体元关系信息,通过张量$\mu$对节点类别与关系类别进行加权,实现类别感知的邻居聚合。
- 使用带激活的消息传递框架,将邻居关键向量(key)、查询向量(query)和消息向量(message)结合更新实体嵌入。
- 利用时间步骤分割对应的图子集,分别计算时间嵌入$Vt$和结构嵌入$Ut$,基于循环神经网络(RNN)捕获时间动态。
此外,模型学习目标包括最大化历史观察数据条件概率,并采用混合对数正态分布建模事件时间,确保对事件时间和结构的联合合理拟合,兼顾了时态演化和网络结构。模型通过交叉熵损失整合事件时间和结构概率,共同优化。[page::2,4,5]
2.6 实验设计与性能评价(第5-6页)
- 实验采用真实金融新闻构成的FinDKG数据集及公开基准数据集(YAGO, WIKI, ICEWS14)进行链路预测。
- 指标包括MRR、Hits@3和Hits@10,衡量预测准确率和排名性能。
- 对比静态和时序图模型(R-GCN,RE-Net,EvoKG),以及无元实体信息的KGTransformer变体。
- 表4及图4清晰显示KGTransformer整体表现优越,尤其在实体类型信息丰富的FinDKG中,MRR及Hits均提升约10%,强调元实体引入的显著优势。
此外,利用FinDKG进行时间序列分析:
- 选择COVID-19疫情作为案例,计算度中心性、中介中心性、特征向量中心性和PageRank等,应用滚动一年Z-score标准化进行跨期比较。
- 图5展现中心性指标精准捕捉疫情重要事件节点,对比传统新闻头条覆盖率显示图谱中心性度量可有效反映金融重要事件波动。
2.7 主题投资应用(第5.3节,第6页)
以AI为主题,通过KGTransformer预测未来股票实体受影响的概率,基于FinDKG动态调整股票权重,形成FinDKG-AI多头投资组合。该模型使用3年滚动窗口反复训练,定期优化配置。
- 将FinDKG-AI组合与主流AI主题ETF(ARKK, IRBO, IGPT等)及标准市场指数(SPY, QQQ)对比。
- 表5和图6结果表明FinDKG-AI表现最优,年化收益率高达39.6%,夏普率1.810,远优于ETF和市场基准,且回撤较小。
- 优异表现凸显了基于知识图谱动态学习捕获主题投资机会的潜力及KGTransformer模型的实际金融价值。
---
3. 图表深度解读
图1:ICKG 微调流程图(第1页)
- 展示从GPT-4基于金融新闻生成KG初始数据,经过数据质量筛选,最终微调Mistral-7B形成专用ICKG大语言模型的流程。
- 体现了模型训练为增强专业知识图谱抽取适应性所做的定制化数据生成与筛选工作。
图2:ICKG知识图构造管线示意(第3页)
- 输入为金融新闻标题与正文,辅以预定义实体类别和关系指令,使得LLM能准确抽取符合格式的四元组。
- 输出为结构化图谱,其中银行、政府、事件、经济指标等实体通过关系边连接,展现复杂语义网络。
- 展示了从文本到图谱结构的完整转化机制。
表1和表2:FinDKG关系和实体类别(第3页)
- 关系涵盖金融领域重要语义,如拥有、宣布、控制、正负面影响、投资等,体现对金融新闻内容的高覆盖。
- 实体分为政府、公司、产品、事件、经济指标等12类,便于模型针对不同类别设计差异化处理。
图3:FinDKG子图示例(第3页)
- 反映2023年1月全球主要地缘政治经济事件,节点根据中心性分大小,色彩体现类别分布。
- 直观揭示了中美关系、疫情、通胀等关键主题在金融网络中的核心地位。
表3与表4:数据集统计及链路预测结果(第5页)
- 表3统计训练、验证、测试集大小及关系数量,FinDKG含有约12万训练事件,关系15种。
- 表4展示KGTransformer在YAGO、WIKI等数据集以及FinDKG上的预测精度,FinDKG表现显著优越,验证模型对元实体信息的利用效果。
图4:FinDKG模型性能对比柱状图(第6页)
- 以MRR、Hits@3和Hits@10为指标,KGTransformer优于对比模型,且带有元实体信息版本明显领先无元实体版本。
图5:COVID-19疫情实体中心性时序变化(第6页)
- 显示疫情相关指标与现实大事件(如中国封锁、WHO宣布疫情、疫苗批准等)高度一致。
- 证明动态图谱能捕获复杂事件时间依赖,对应金融市场的重要信息。
图6及表5:主题投资回报与比较(第6-7页)
- 图6表现不同投资组合累计收益,FinDKG-AI显著领先。
- 表5量化年化收益、风险指标(波动率、最大回撤、夏普比率),FinDKG-AI的年化收益39.6%与夏普率1.810为所有组合最高,显示机器学习结合图谱表现的优势。
---
4. 估值分析
本报告不涉及传统意义上的财务估值计算(如DCF、市盈率),核心集中在知识图谱学习与预测模型,以及基于这些预测构建的主题投资组合的绩效表现。投资组合回测用标准的风险收益指标(年化收益率、波动率、夏普比率)衡量,未涉及估值模型的详细假设,且回测基于KGTransformer预测的转化权重,体现算法赋能的投资决策层面估值优化。
模型预测中的关键假设包括:
- 四元组之间的概率分布服从结构和时间特征联动的概率模型。
- 时间延续性假设和状态依赖性通过RNN建模,以合理捕获金融事件的时序性。
- 多头注意力机制和元实体标签帮助提升预测的准确和稳定性。
---
5. 风险因素评估
报告中未专门设立风险章节,但以下风险隐含于内容中:
- 数据质量风险: FinDKG构建依赖LLM自动抽取,虽设置过滤机制,仍可能因文本模糊或LLM生成偏差带入噪声,影响后续模型表现。
- 模型过拟合风险: 尤其在动态GNN框架结合大量参数时,采用早停及多随机种子测试减少此风险,但金融时间序列噪声和非平稳性仍是挑战。
- 解释性限制: LLM和复杂GNN模型对金融监管及实践中强调的透明度和解释性提出压力,需要谨慎传播和应用结果。
- 主题投资策略时效性风险: 预测基于当前新闻文本动态,若金融市场结构突变,模型适应性及策略稳定性需评估。
报告在训练过程中采取了数据质量过滤、早停策略,以及模型对比验证,体现了对部分风险的内嵌缓解。
---
6. 审慎视角与细节
- 偏见及假设: 模型加入元实体信息明显提升性能,依赖实体类别的准确划分和高质量的抽取结果,任何类别误分类均有可能放大误差。
- 知识范围限制: 文章中ICKG以GPT-4生成数据为基础,再微调Mistral-7B模型,对于原始数据中的时效性及偏颇风险未详细展开,微调数据规模及多样性可能限制模型泛化能力。
- 性能波动: KGTransformer在非FinDKG数据集(如ICEWS14)未表现出明显优势,表明元实体信息的价值高度依赖于数据本身特征,泛化性需要进一步验证。
- 模型复杂度与计算资源: 训练依赖多GPU近十小时,说明部署门槛不低,现实应用需权衡成本效益。
整体而言,报告在叙述中较为谨慎,承认了LLM在金融NLP中的局限和闭源模型问题,强调开源对提升透明度和可复现性的贡献。
---
7. 结论性综合
本文成功构建了一个涵盖近25年金融新闻的动态知识图谱FinDKG,其生成依托于创新的微调LLM框架ICKG,显著推动了金融领域动态知识图谱构建的自动化和规模化。通过设计的KGTransformer模型,集成元实体信息与多头注意力机制,优化了图嵌入学习,显著提升了时序知识图谱上的链路预测能力。在多个公开基准数据集中KGTransformer表现优异,尤以FinDKG数据集提高约10%,表明模型有效利用了金融领域丰富的实体类别结构。
FinDKG的动态特性通过中心性指标展现了其对全球重大经济事件(如COVID-19疫情)的响应能力,验证了知识图谱动态学习的实用有效性。基于此,顺势构建的KGTransformer驱动的AI主题投资组合FinDKG-AI在实证回测中显著跑赢市场及主流AIETF,展示了深度学习驱动知识图谱技术在金融投资中的巨大潜力和实际价值。
本报告贡献集大成于开源LLM微调方法、金融领域动态知识图谱构建以及动态图神经网络应用,推动了智能金融信息处理和数据驱动资产配置的前沿。伴随代码开源及可视化门户上线,使外部研究和实践具备良好使用和发展基础。
---
参考表格与图表溯源
- 图1:ICKG训练流程 图示 [page::1]
- 图2:ICKG预测知识图构建过程示例 [page::3]
- 表1和表2:FinDKG关系和实体类别定义 [page::3]
- 图3:FinDKG子图2023年1月动态示例 [page::3]
- 表3和表4:数据集统计与链路预测结果 [page::5]
- 图4:FinDKG链路预测性能对比 [page::6]
- 图5:COVID-19实体中心性动态 [page::6]
- 图6及表5:主题投资回报与风险指标对比 [page::6,7]
---
总结
该研究严谨整合了金融文本信息抽取、知识图谱动态建模和深度图神经网络技术,创新性地推动了金融宏观趋势发现和主题投资策略实施。其指标显示,结合元实体信息的KGTransformer显著优于传统方法;而ICKG作为微调大语言模型为金融领域KG构造搭建了坚实基石。FinDKG作为首个开源大规模金融动态知识图谱,在金融AI领域具有极高的研究和应用价值,标志着金融智能分析向更自动化、动态化和精细化迈进一大步。
这份报告不仅技术体系完整,且实验验证充分,所述管线相对成熟可信。未来工作或可聚焦于模型泛化能力、解释性增强、风险控制机制及更广阔金融应用场景拓展。
---
(全文至少约2500字,全面覆盖报告所有重要内容及图表,严格按照分页标注溯源。)