`

Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models

创建于 更新于

摘要

本文提出了一种轻量级的语义偏差度量框架(Semantic Divergence Metrics, SDM),用于检测大型语言模型(LLM)回答中的忠实度幻觉(confabulations),即回答与输入语义严重偏离导致的错误。SDM通过多重等义改写提示和对应的多次回答,构建联合句子嵌入聚类,测量提示与回答的主题分布差异,结合Jensen-Shannon散度和Wasserstein距离,形成综合的语义不稳定性评分$S_H$,显著优于传统语义熵方法,且辅助KL散度揭示生成内容的语义探索程度,最终构建“语义盒子”框架分类不同类型的回答行为,能有效识别稳定的事实回复、解释性回答、创造性生成以及危险的自信错觉。大量实验验证了方法对多种提示类型的响应稳定性和语义一致性的敏感度及诊断能力[page::0][page::1][page::11][page::15][page::17][page::20]

速读内容


提出语义偏差度量框架SDM检测LLM忠实度幻觉[page::0][page::1]

  • 通过生成多个等义改写的提示,每个提示对应多次回答,捕捉响应的多样性和一致性。

- 联合句子嵌入聚类构建共享语义主题空间,实现提示-回答内容的细粒度主题对比。

SDM核心指标及算法设计[page::4][page::7][page::8]

  • 语义不稳定性评分$SH$由集合Jensen-Shannon散度(主题分布差异)和Wasserstein距离(嵌入分布几何差异)加权组合,归一化提示熵。

- KL散度KL(Answer||Prompt)量化回答语义探索度,反映生成内容偏离提示的程度。
  • 通过数据生成、嵌入编码、联合聚类、计算多重信息理论指标,形成统一计算流程(详见算法1)。


控制变量实验验证SDM有效性与细粒度诊断能力[page::10][page::11][page::12]


  • SDM评分$SH$按提示复杂度和语义稳定性递增,成功区分高稳定事实型、结构化解释型和低稳定创意型任务。

- KL散度揭示“语义探索”强度,创意任务KL远高于事实或解释任务。
  • 热图显示不同提示主题与回答主题间的条件概率分布,直观反映模型多样性和条件依赖结构。


多样化提示测试再证SDM分辨力及“自信错觉”现象[page::13][page::14][page::16]


  • “自信谎言”任务产生极低的语义不稳定性评分,表明模型以一致但错误的方式逃避无意义查询。

- 事实及复杂比较任务语义探索度(KL散度)较高,预测任务偏低,表明模型对不同任务体现不同生成态度。
  • 语义盒子(Semantic Box)框架通过$SH$和KL散度二维划分回答类型,有助区分忠实记忆、解释、创意及危险错觉。


语义盒子框架四象限划分LLM行为模式[page::17]

  • 高$SH$、低KL:忠实解释,包含合理的解释性变异性。

- 高$SH$、高KL:创意生成,允许较大探索与不稳定性。
  • 低$SH$、低KL:陷入稳定但错误的“自信谎言”警示。

- 低$S_H$、高KL:忠实事实,回答稳定且限定于提示范围。

主要贡献与未来方向[page::18][page::19][page::20]

  • 明确指出仅靠单一绝对阈值识别幻觉不现实,建议基于提示类型的动态自校准方案。

- 提出可扩展至多轮对话的动态主题变更检测框架。
  • 可调整至检验检索增强生成(RAG)环境中回答对参考文档的语义忠实度。

深度阅读

报告深度分析报告


一、元数据与概览


  • 报告标题:Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models

- 作者:Igor Halperin
  • 发布机构:Fidelity Investments

- 发布日期:2025年8月15日
  • 主题:大规模语言模型(LLMs)中的“忠实性幻觉”(faithfulness hallucinations)检测及语义偏差测量方法。

- 核心论点
本文提出了一套名为“语义散度度量”(Semantic Divergence Metrics,SDM)的新颖轻量级框架,用于检测LLM因生成内容与输入上下文严重偏离而导致的“忠实性幻觉”,特别聚焦于模型产生的“虚构”(confabulation)——即对用户提示语语义上任意且不一致的回答。该方法创新在于引入“提示感知”(prompt-aware)机制,既检测同一提示多次响应的一致性,也比较语义等价的多种提示的响应一致性,通过句子嵌入的联合聚类构造共享的主题空间,并结合信息论指标(如Jensen-Shannon散度、Wasserstein距离、KL散度)形成综合评分,从而实现对LLM回答的实时、细粒度监测和分类。最终,SDM框架包括“语义盒子”(Semantic Box),用于区分多种模型行为类型,包括危险的自信虚构。
  • 评级与目标价:无财务评级和目标价,本为技术方法论研究

- 主要信息意图:作者力图通过引入基于提示-回应语义关联度的多维度指标体系,提升对LLM虚构和语义错位的检测能力,从而增强实际应用中模型的可靠性和可解释性。

---

二、逐节深度解读



1. 引言

  • 关键论点

LLMs表现优秀,但容易出现“幻觉”错误。区分内源幻觉(contradictions to given context)与外源幻觉(不可验证的陈述),并重点针对内源“忠实性幻觉”(faithfulness hallucination),即响应与用户提示上下文不吻合的语义偏差进行检测。
  • 逻辑依据:依托已有幻觉分类体系,将检测定位为度量提示与回答语义差异的量化问题。


2. 背景及相关工作

  • 关于“虚构(confabulation)”的界定

从精神病学角度区分幻觉与虚构、强调虚构表现为误导性事实填充,虽无恶意欺骗,适合作为LLM错误的形象比喻。
  • 语义熵(Semantic Entropy,SE)方法介绍及局限

SE通过多次采样同一固定提示,测量答案集的语义多样性来判定输出的任意性,是判别虚构的有效方法。但SE缺乏对提示语的感知,可能将合理复杂答案误判为幻觉。

3. Semantic Divergence Metrics (SDM) 方法概述与理论基础

  • 总体框架

SDM基于信息论测度,主提出两个正交维度:
1. 语义探索(Semantic Exploration,类比机器学习中偏差):回答语义分布相对于提示分布的KL散度,衡量回答创新或挖掘信息的程度。
2. 语义不稳定性(Semantic Instability,类比机器学习中方差):衡量回答对不同语义等价提示的语义一致性,体现稳定性不确定性,核心得分为$SH$,结合Ensemble Jensen-Shannon散度和Wasserstein距离计算。
  • 关键假设:理想的非虚构应在语义空间与提示一致;虚构表现为严重语义漂移或不稳定。

- 公式及指标
- 理论基础的归一化条件熵 $\phi = \frac{H(Y|X)}{H(X)}$ 用来衡量回答的复杂度中未被提示解释的部分。
- 实用指标 $S
H = \frac{w{wass} \cdot Wd + w{jsd} \cdot D{JS}^{ens}}{H(P)}$ 结合了Wasserstein距离 $Wd$ 和Ensemble Jensen-Shannon散度,考虑提示复杂度进行归一化。
- 另有KL散度指标 $KL(Answer||Prompt)$ 用于捕捉回答相对提示的语义探索程度。

4. 算法流程详解

  • 输入处理:生成$M$个提示语义等价的改写各自$N$个回答,拆分为句子并使用Qwen3-Embedding-0.6B模型生成句子嵌入。

- 联合语义聚类:将所有提示与回答句子嵌入合并,通过层次聚类(先用K-means确定簇数)识别共享的语义主题簇。
  • 距离和信息论计算:计算提示与回答主题分布的Jensen-Shannon散度、KL散度、嵌入分布间的Wasserstein距离;计算基于句子共现的互信息(MI)并用热力图可视化。

- 两种计算模式:全局聚合先算(Global)与分对平均(Ensemble);后者更细粒度,更能体现个例差异。
  • 最终输出:返回三大指标($SH$, $\phi$, KL)及辅助诊断。


5. 计算复杂度分析

  • 时间复杂度 dominated by 层次聚类,约为 $O(S^2)$,其中$S$是总句子数。

- 空间复杂度主要用于存储向量嵌入和Wasserstein距离的成本矩阵。
  • 适合常规模型交互场景,句子数量以数百计。


6. 实验设计与结果解析


6.1 受控稳定性梯度实验(实验组A)

  • 设计:三个相似长度提示,创造不同自由度:从基于事实(哈勃望远镜)到解释性(《哈姆雷特》概括),再到高度创意(人工通用智能伦理困境)。

- 结果
- $SH$得分随自由度增加递增,体现响应不稳定性增大(0.2918 → 0.3297 → 0.5919)
- KL指标对不同提示的语义探索敏感,创意性高的提示KL远大于事实型
- MI指标揭示解释任务句子级语义依赖更显著
- 语义熵SE基线不能正确反映梯度,提示无感知导致复杂正确回答被误判为不稳定
  • 视觉分析(图1):主题共现热力图显示从稳定单峰分布到多峰且条件依赖,再到“脆弱”尖峰映射,映射了不同任务的响应策略。


6.2 多样化提示类型实验(实验组B)

  • 设计:包含事实、复杂对比、预测和强制幻觉(荒诞提示)四类,测试模型对稳定性和幻觉的区分力。

- 关键发现
- 令人大玩味的是,强制幻觉提示的$S
H$最低,表明模型表现出高度稳定但错误的“自信虚构”响应策略
- 其他3种合理提示$SH$较低且相似,模型表现稳定一致
- KL指标区分任务语义探索需求,事实类高过预测和幻觉任务
- SE再次体现不足,不能区分合理复杂回答和幻觉的区别
  • 视觉分析(图2):热力图显示幻觉条件独立的均匀响应分布,模糊了提示与回答的联系,体现“自信幻觉”的特征。


7. 语义盒子(Semantic Box)框架详解

  • 在$SH$(语义不稳定)与KL(语义探索)两个维度上,将LLM响应划分为四个象限及含义:

1. 绿区:忠实事实回忆(低不稳定,高探索),例如哈勃事实响应。
2. 黄区:忠实解释(低不稳定,高探索),例如《哈姆雷特》总结。
3. 橙区:创造性生成(高不稳定,高探索),例如AGI伦理困境。
4. 红区:收敛响应(低不稳定,低探索),既可能是简单重复的正常结果,也可能是危险的自信虚构,如强制幻觉提示。
  • 作用:为多种响应行为提供分类和风险等级,辅助后续过滤或人工介入判断。


8. 讨论

  • 反复验证了传统的语义熵指标因无提示感知而存在盲点。

- 论述了单一“普适”幻觉阈值难以建立,因任务语义复杂性差异大。
  • 提议实际应用中,需依赖本地或场景特定的校准数据集调整阈值。

- 展望提出自校准机制,依据动态生成的提示改写构建稳定性谱,进行相对而非绝对的判断。

9. 未来工作

  • 建议对SDM方法进行大规模验证,结合TruthfulQA、HaluEval等数据集标注。

- 实现自校准系统,实现无监督类动态稳定性度量。
  • 扩展框架到衡量语义“扎根度”(引入检索源文本联合嵌入)和动态多轮对话话题变更检测。


10. 结论

  • SDM创新性地结合提示改写、多答案采样与联合语义聚类,提供丰富、细粒度的语义对齐测度。

- 凭借$SH$及KL散度,辅助逻辑下的语义盒子实现对LLM幻觉和生成行为的分类诊断。
  • 代表了针对大规模语言模型可靠性安全性的实用且理论严谨的进步。


---

三、图表深度解读



表1(第12页)——实验组A稳定性梯度结果汇总



| 指标 | 高稳定(Hubble) | 中稳定(Hamlet) | 低稳定(AGI Dilemma) |
|-----------------------|------------------|------------------|-----------------------|
| SDM评分 $S
H$ | 0.2918 | 0.3297 | 0.5919 |
| 归一化条件熵 $\phi$ | 0.9489 | 1.0507 | 1.5074 |
| 全局提示熵 $H(P)$ | 1.9165 | 1.8295 | 1.2147 |
| 全局JSD | 0.3337 | 0.4451 | 0.6205 |
| 全局KL(P||A) | 0.4185 | 0.7629 | 1.4513 |
| 全局KL(A||P) | 0.5241 | 9.1586 | 11.3269 |
| 熵差 $H(A)-H(P)$ | 0.0849 | 0.0720 | 0.6013 |
| 集合JSD | 0.4492 | 0.4854 | 0.6626 |
| 集合KL(A||P) | 7.1488 | 5.1408 | 19.5591 |
| Wasserstein距离 | 0.8162 | 0.8782 | 0.8503 |
| 集合MI(比特) | 0.0174 | 0.1490 | 0.0113 |
| 平均MI(比特) | 0.0023 | 0.0047 | 0.0013 |
| 语义熵基线,原始提示 | 2.2190 | 0.8524 | 1.9491 |
| 平均语义熵(跨改写) | 1.5899 | 1.8952 | 1.3708 |
  • 解析:

- SDM得分和条件熵均升随任务自由度和创造性增强,验证了其对稳定性度量的有效定量捕获。
- KL散度表明,AGI困境等创意任务需大规模语义挖掘,KL数值异常高,Hamlet的KL高于Hubble验证了三段式严密框架对语义探索的特定需求。
- Wasserstein距离揭示中间解释类任务的回答语义分布最大变异。
- MI指标显示结构化解释(Hamlet)任务的句子间依赖更强,这体现解释任务的复杂语义关系。
- 传统SE方法结果不符合预期,强调无提示感知的缺陷。

图1(第12页)——实验组A提示-回答主题共现热力图


  • 描述:三组提示分别对应高稳定、中稳定、低稳定任务,Y轴为提示主题索引,X轴为回答主题索引,色块代表联合概率大小。

- 解读
- 高稳定(Hubble):高概率集中于少数主题,对大部分提示主题均一致响应,显示稳定且稍有条件区分的事实召回特征。
- 中稳定(Hamlet):答题主题多样且依赖提示主题呈不对称分布,体现解释任务中部分提示对应无回答(主题0无回答),意味着对不同表述的敏感性和复杂映射。
- 低稳定(AGI Dilemma):回答主题激烈集中但严重只依赖单一定义的提示主题,其他提示主题反应极少,显现出任务的“脆弱”映射及回答策略的有限适应性。

表2(第14页)——实验组B多样提示任务结果汇总



| 指标 | Hubble(事实) | Keynes vs Hayek(复杂比较) | AI趋势预测(预测) | 强制幻觉(荒诞) |
|-----------------------|----------------|-----------------------------|--------------------|------------------|
| SDM评分 $SH$ | 0.1945 | 0.1419 | 0.1600 | 0.1100 |
| 归一化条件熵 $\phi$ | 1.0142 | 1.0297 | 1.0040 | 0.9906 |
| 全局提示熵 $H(P)$ | 1.8674 | 2.2480 | 1.9183 | 2.5850 |
| 全局JSD | 0.1421 | 0.1024 | 0.1140 | 0.0774 |
| 全局KL(P||A) | 0.0794 | 0.0435 | 0.0518 | 0.0237 |
| 全局KL(A||P) | 0.0842 | 0.0407 | 0.0527 | 0.0244 |
| 熵差 $H(A)-H(P)$ | 0.0427 | 0.0650 | 0.0077 | 0.0244 |
| 集合JSD | 0.2330 | 0.1681 | 0.1203 | 0.0942 |
| 集合KL(A||P) | 1.7206 | 0.8644 | 0.0334 | 0.0154 |
| Wasserstein距离 | 0.6668 | 0.6708 | 0.7422 | 0.7276 |
| 集合MI(比特) | 0.0017 | 0.0178 | 0.0116 | 0.0155 |
| 平均MI(比特) | 0.0001 | 0.0004 | 0.0000 | 0.0000 |
| 语义熵基线,原始提示 | 1.9428 | 2.2956 | 2.2450 | 0.6253 |
| 平均语义熵(跨改写) | 2.2293 | 2.3250 | 2.1229 | 1.6925 |
  • 解析:

- 强制幻觉提示得到最低$S
H$,代表该幽灵任务模型未产生多样化输出,反而表现出“自信错误”的稳定输出。
- 其他三类任务$SH$相似且较低,故SDM能区分秘密一致性低但错误的稳定假信息(低$SH$,低KL)。
- KL显著低于实验组A,说明这是受限概念和语义空间的任务。
- MI指标最高的复杂对比提示显现语义关联度更强。

图2(第16页)——实验组B热力图


  • “自信幻觉”任务的热力图显示回答主题概率分布与提示主题完全独立且均一分布,展示了“逃避策略”的典型特征。

- 其它合理任务显示的分布均有不同程度的结构化与条件依赖。

图3(第18页)——语义盒子分类框架


  • 根据语义不稳定性和语义探索的两个指标,将模型响应划为四个行为类型,分别代表信度不同的响应场景,具有良好的应用辨识价值。


---

四、估值分析


本报告为方法论研究,无估值信息与分析。

---

五、风险因素评估


  • 可能对提示改写质量和嵌入向量质量依赖较重,差异化嵌入表现可能导致聚类结果及度量稳定性波动。

- 语义盒子红区响应难以从指标自洽判别真假,需要上下文/提示难度的附加人工或机器判断。
  • 计算复杂度较高(层次聚类$O(S^2)$)限制大规模或长文本实时应用。

- 任务和提示类型差异导致指标阈值无普适性,需场景校准,增加使用门槛。
  • 当前方法仍依赖文本嵌入质量,嵌入模型泛化与错误可能带来误判。


---

六、批判性视角与细微差别


  • 作者强调现有方法(如语义熵)不足,但SDM仍然依赖人工确定阈值与提示改写质量,隐含对提示设计的依赖性强。

- KL散度被重新定义为语义探索指标而非单纯错误度,体现了对原本度量指标含义的重构,有助于丰富解读但可能混淆理解。
  • 实验设计常假设语义等价的提示改写实际上能覆盖语义空间,然而在实际应用中改写可能带入偏差。

- 语义盒子红区状态既可容纳低风险也可容纳高风险场景,作者建议辅以二次判别,这留给后续系统设计较大自由度但也增加复杂度。
  • 目前研究局限于句子级别的分析,长文本跨句子的语义连贯性与依赖尚未充分体现。


---

七、结论性综合



本研究通过理论与实践相结合,提出了面向大规模语言模型的语义散度度量框架(SDM),旨在精准检测因语义错位导致的忠实性幻觉。SDM利用生成多重改写提示和多样回答的策略,基于句子级嵌入和联合聚类构建共享的主题空间,进而从信息论视角计算语义散度指标。

核心指标包括加权的集成Jensen-Shannon散度与Wasserstein距离构成的$S_H$分数,捕捉回答整体主题和语义空间漂移;以及反映回答相对于提示的语义探索程度的KL散度。该框架在两个实验组中展示了优越的稳定性检测能力与对任务语义调性的识别,区分事实性、解释性、创造性和极端幻觉等不同生成模式。

图表数据清晰揭示了模型“稳定→解释→创意”梯度中语义散度的量化演变,及幻觉时的低散度但低探索“自信幻觉”现象,引发对传统幻觉检测思路的反思。语义盒子作为综合诊断工具,有助于实际工程中对LLM输出风险等级的划分和管控。

总体而言,SDM提升了幻觉检测的上下文感知性解读多维度性,为构建更加可信赖的LLM监控和评估系统奠定坚实基础。其潜在应用涵盖了生成内容的实时质量检测、多样任务适应以及多轮对话上下文变化识别,是未来LLM安全性评估领域的重要里程碑。[page::0,page::1,page::2,page::3,page::4,page::5,page::6,page::7,page::8,page::9,page::10,page::11,page::12,page::13,page::14,page::15,page::16,page::17,page::18,page::19,page::20,page::21,page::22]

报告