FactCHD：探索基于知识图谱的事实冲突幻觉检测新基准

在数字时代，大型语言模型（LLMs）如 ChatGPT/GPT-4 因其广泛的实际应用而受到瞩目。然而，它们在网络平台上产生的事实冲突幻觉问题限制了其应用范围。本文介绍了了一个名为 FACTCHD 的事实冲突幻觉检测基准，能够在 LLMs 的“查询-响应”环境中评估事实性。

FACTCHD 集成了多个领域的事实性知识，涵盖了广泛的事实性模式，如原始事实、多跳推理、比较和集合操作模式。其独特之处在于，它旨在将基于事实的证据链相互结合，当预测一个声明的事实性或非事实性时，提供有说服力的理由。然而，全程依靠人工注释来收集大量数据不仅耗时而且资源消耗巨大，其可扩展性亦有限。

因此，本文建议采用现有的知识图谱（KG）和文本知识作为数据来源，提出了一种基于知识事实的数据构建策略，并结合半监督注释的方法，以促进上述基准的创建和发展。与此同时，结合领域 KG 构建幻觉检测数据集的策略拓展性较高，进一步为未来在高风险领域如金融、医疗和法律等领域应用生成性 AI 提供了可能。

论文标题：

Unveiling the Siren's Song: Towards Reliable Fact-Conflicting Hallucination Detection

论文链接：

https://arxiv.org/abs/2310.12086

项目链接：

https://github.com/zjunlp/FactCHD

为了评估多种大型语言模型（如Alpaca、ChatGPT等）的效能，我们开展了一系列基准实验，利用我们的FACTCHD在不同设置下进行测试——零样本学习、上下文内学习、专门为检测特定专业知识进行调优，以及通过检索/工具进行知识增强。尽管调优和知识增强对事实冲突幻觉的评估产生了积极影响，但开源的大型语言模型和ChatGPT在精准和稳健地检测事实不准确性方面仍面临挑战。

因此，本文引入了一个“三角测量”框架进行幻觉辨别，其使用交叉参考生成器和搜索工具来裁决有问题的事实回答。初步实验验证了不同LLM在识别事实冲突幻觉方面的不同表现以及本文提出方法的有效性。

一、 FactCHD基准的构建

基于上述定义，我们构建了涉及多个领域的 FactCHD 基准，其中包含了一系列全面的训练样本，并额外添加了 6,960 个经过精心筛选的样本，用于评估 LLM 生成的事实冲突幻觉。我们的数据集确保了 factual 或 non-factual 类别之间的平衡，为评估提供了一个坚实的平台。值得注意的是，FactCHD 具有以下三个显著特点：

（1）如图 1 和 2 所示它包含了多样化推理模式，包括多跳、比较和集合操作，并涉及健康，医疗，科学，气候等多个领域；

（2）FactCHD 遵循现实场景，提供 “Query-Response” 对和相关证据来验证提供的信息；

（3）该基准测试经过精心设计，在初始数据构建阶段利用知识图谱（KGs），经过细致的人工验证以确保质量。此外，该数据集本身允许通过基于知识图谱的更新进行扩展，从而在保持时代性和可扩展性方面具有独特优势。

接下来，本文将介绍事实冲突幻觉检测基准测试的设计原则。

Figure 1: Overview of the construction and pattern illustration of FACTCHD

Figure2: Distribution of FactCHD across various domains

1.1 生成“查询-回答”上下文

将知识作为事实加以利用： 如图 3 所示，知识图谱（KG）以其庞大的实体和关系数据存储库，不仅支持复合推理，而且为事实信息提供了基础结构。同时，文本知识在提供额外和细致信息方面起着关键作用。基于这一点，本文的目标是探索利用现有知识作为事实支撑半自动构建事实冲突幻觉中的能力，具体：

（1）本文从 Wikidata 和 PrimeKG 中提取 KG 数据，将其作为生成“查询-回答”数据的基础知识库。通过手动选择 438 个常见关系，并通过从不同的随机选择的起始实体进行 K-hop 遍历，重复 N 次以获取了多样化的子图集合，用于多跳推理、事实比较和集合操作。本文应用启发式规则以确保提取的子图之间的最小交集和一致性。

（2）本文采用各种事实验证数据集中的文本知识，包括 FEVER、Climate-Fever、Health-Fever、COVID-FACT 和 SCIFACT，以构建本文基准数据集 FactCHD 中的数据。本文仅选择具有相应证据的 factual 和 non-factual 样本，并最初使用 ChatGPT 直接评估这些数据集中的 claim，并选择模型难以提供错误答案的样本。

我们精心设计了有效的提示语，以引导 ChatGPT 生成“查询-回答”场景，这包含三个关键要素：角色描述、事实性模式和事实性展示。角色描述界定了系统的角色，并明确了生成过程的输入和目标。为了精确控制与事实性相关样本的类型和质量，我们提供了相应的事实性模式和展示的解释，以指导模型生成“查询-回答”场景。

Figure3: Distribution of FactCHD across various domains

1.2 收集具备多个幻觉模式的真实数据

解决LLM输出中的幻觉问题需要对幻觉和非幻觉实例进行仔细检查。LLM对事实冲突幻觉的敏感性源于它们受限的知识和欠优的推理能力。因此，本文将事实错误分为四种不同的模式，如图下半部分生动地展示：

（1）常规模式处理可以通过已建立的来源进行客观验证的事实陈述，通常更容易识别；

（2）多跳模式表示通过连接多个事实来得出结论的过程；

（3）比较模式涉及评估和比较不同事实之间的相对价值和关系；

（4）集合操作模式涉及操作组合元素集以分析不同事实之间的关系。

随后，本文使用反映已确定的事实模式的具体指令查询开源LLM。通过对幻觉回答进行手动注释，目标是收集真实的幻觉数据，以模拟这些现实幻觉作为示例。

1.3 根据一致性优化提示

本文利用ChatGPT生成“查询-回答”上下文，通过使用手动提示来使其充当角色扮演代理，这些提示是基于特定的示例。鉴于ChatGPT对提示的敏感性，本文进行了迭代的提示优化，以确保生成的数据与期望的真实模式密切匹配，从最初的固定100个示例开始，本文选择了五个样本进行人工相似性评估，并将其与示例进行对比。通过多数规则，本文评估每个上下文是否符合既定的相似性标准。这个迭代过程允许不断调整提示，确保生成的数据模式与期望的目标保持一致。

1.4 自动筛选以增强数据多样性

为了提高生成的“查询-回答”上下文的多样性，本文在自动筛选过程中采用Sentence-BERT计算上下文内的平均语义相似度。这有助于识别和排除高度相似的样本，保障数据集的多样性。在筛选过程中，总共删除了来自训练集的1,538个样本和来自测试集的632个样本，确保最终的样本集合是多样的。通过仔细消除语义上类似的条目，增强了基准数据集在评估多样的事实冲突幻觉实例方面的实用性。

1.5 生成证据链

本文的基准测试不仅仅是识别LLM生成的“查询-回答”上下文中的事实错误；它还需要生成连贯的证据链来支持这些判断，所有这些判断都根植于事实知识并由ChatGPT表达。

特别地，本文利用两种类型的知识源作为本文的事实基础。ChatGPT在为“查询-回答”上下文分配适当标签时，可以使用子图事实或文本事实来提供全面的证明。值得注意的是，这些解释的有效性深刻影响着判断的可信度和可靠性，从而增强了对预测模型的信任。这些解释输出还可以增强用户的整体理解能力。

1.6 通过人工审查进行低质量数据过滤

本文设计了三个方面的过滤规则：模式一致性、回答的事实性和证据链的逻辑，利用这些规则指导标注员进行质量过滤。本文的团队由21名标注员组成，每个标注员都拥有熟练的英语阅读能力和本科以上的学历，并按照标准化的注释指南接受统一培训。标注员根据自己的意识，并在必要时利用搜索引擎，确保做出明智的过滤决策，排除违反既定规则的样本。

鉴于通过这些规则定义匹配质量存在固有的主观性，本文将标注员和样本分成了七组，每组三名标注员通过投票机制对同一批数据进行审查，标注员同时判断不匹配的样本被舍弃。

二、实验

2.1 指标与设定

FactCLS Metric：本文采用称为FactCLS的指标来评估二元事实分类的性能，使用Micro F1分数，重点关注分布p(l|Q&R)，将实例分为factual或non-factual两类。鉴于本文致力于检测非事实示例，本文将non-factual指定为正类，将factual指定为负类。
ExpMatch Metric：在FactCHD数据集中，证据链包括两个元素：引言性的阐述语句和事实解释的核心。鉴于事实解释在阐述部分之上的重要性，本文采用分段匹配和加权平均的度量指标ExpMatch,，将这些部分融合在一起进行评估。

Table 1: Results on FactCLS and ExpMatch along with FactCHD estimated by each method.

2.2 对基准策略的实证研究

1. 零样本表现： 在零样本学习中，LLM在“查询-响应”上下文中难以识别隐含的事实性。即使是ChatGPT也在区分事实与非事实的“查询-响应”样本方面表现有限，在零样本评估中只获得了52.82%的FactCLS得分。

2. ICT设定下的性能： 向不同模型注入少量信息明显提高了对冲突事实幻觉的检测能力，其中FactCLS得分平均提高了约6%，ExpMatch得分提高了18%。然而，对于text-davinci-003而言，集成少量信息的影响相对较弱，而Llama2-chat显示出对少量演示的更好理解。

3. 检测特定的专家性能： 使用LoRA技术对开源的7B模型进行领域特定专家的调整，提高了它们在识别冲突事实幻觉方面的性能，其中Llama2-chat-7B模型在基准测试中表现最佳，分别获得了74.73%的FactCLS得分和53.71%的ExpMatch得分。

4. 知识增强： 通过检索相关知识和工具增强学习，可以提高LLMs在幻觉检测中的性能。然而，知识增强的效果相对较小，部分原因是数据集涵盖多个领域，而维基百科的知识仅覆盖其中的一个子集。同时，工具增强学习展示了巨大的潜力，通过使用搜索引擎来确定输入中的幻觉存在并提供解释，相对于零样本方法有显著的改善。

2.3 A Strong Baseline: Triangulation for Truth

如图4所示，我们将工具增强的ChatGPT称为“真相探寻者”，其目标是通过外部知识做出明智的判断。然而，外部知识源的信息可能不完整、错误或多余，可能误导大型模型。领域特定专家作为“真相守护者”则更依赖其自身知识和任务专长，倾向于更保守的预测。

为了解决这些问题，我们提出了Truth-Triangulator框架，灵感来自“真相三角验证”理论，通过交叉参考多个独立的源或视角来验证和确认信息。我们微调ChatGPT作为“事实判定管理者”，从不同角度收集证据，以提高真相或结论的可靠性和准确性。表1展示了我们的模型与Lamma2-7b-chat-LoRA和GPT-3.5-turbo（工具）相比的改进。这强调了三角验证在减少依赖单一来源或方法可能引起的错误和不一致性方面的有效性，从而促进对真相更全面和更强健的理解。

Figure 4: Overview of our Truth-Triangulator

三、分析

3.1 模型容量的影响

如图5所示，当从7B模型迁移到13B模型时，尤其是在zero-shot和in-context learning场景中，本文揭示了在检测事实冲突的幻觉方面的显著提升。

Figure 5: Impact of model size on hallucination detection

3.2 提升检测能力：关于精确与丰富的上下文分析

Table 2: Ablation analysis on input context on FactCLS

如表2所示我们进行了消融研究，旨在阐明精确和丰富上下文在改进模型检测能力方面的微妙作用。结果显示，使用精确的事实信息和完整的“Query-Response”上下文可以显著提升模型的性能。具体来说，加入事实信息使FactCLS分数明显提高，而省略“查询”部分则导致FactCLS分数显著下降，强调了准确事实和全面上下文在明智决策中的关键作用。

3.3 案例分析

为了突显的广泛适用性，我们将其应用于超越FactCHD基准范围的真实世界幻觉数据。我们通过展示来自我们的超出分布案例分析的发现，阐明了我们模型的能力和限制，具体结果见表表3。这些案例的结果证实了我们的方法可以做出熟练的判断，特别是在检测特定专家和工具增强型ChatGPT之间存在差异的情况下。这通过在真实的场景中实际应用进行了可靠性验证，增加了对于存在事实冲突的幻觉检测的可信度。

Table 3: Out-of-distribution case analysis

四、结论

本文引入了 FactCHD，这是一个基于 KGs 作为事实知识而专门用于对 LLM 中存在事实冲突的幻觉进行评估的基准数据集。该基准测试以丰富多样的模式和证据链为特色，以加强对事实评估的健壮解释。此外，本文揭示了一种半监督的数据构建策略，利用知识作为事实，促进幻觉数据集的创建。同时，我们还提出了 Truth-Triangulator 框架，运用三角测量原理来明智地判断信息的真实性。通过交叉引用生成器和搜索工具来审慎仲裁回答，特别是那些悬而未决的可疑事实性问题。

未来可努力的研究方向可能包括：1）探索高效而强大的知识增强方法，以增强幻觉检测；2）研究由于错误或过时的知识导致的事实错误，以及推理过程中幻觉的潜在发生；3）扩大评估范围，包括多种形式和文化背景下对幻觉的评估。

Illustration From IconScout By Pixel True