GraphEval：基于知识图谱的LLM幻觉评估框架

Jul, 2024

GraphEval：基于知识图谱的LLM幻觉评估框架

GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

Hannah Sansford, Nicholas Richardson, Hermina Petric Maretic, Juba Nait Saada

TL;DR利用知识图谱结构进行大型语言模型(LLM)的幻觉评估，发现特定的三元组更容易产生幻觉；同时与最先进的自然语言推理模型结合使用能够提高各种幻觉基准上的平衡准确性；最后通过利用知识图谱结构进行幻觉纠正，证明大多数幻觉确实可以被矫正。

Abstract

Methods to evaluate large language model (LLM) responses and detect inconsistencies, also known as hallucinations, with respect to the provided knowledge, are becoming increasingly important for LLM applications. Current metrics fall short in their ability to provide explainable decisi

发现论文，激发创造

用于减少大型语言模型无根幻觉的自然语言推理链

提出了一个使用自然语言推理链 (CoNLI) 来进行幻觉检测和幻觉减少的层次性框架，通过后期编辑来减少幻觉生成，从而提升文本质量。该框架在幻觉检测方面取得了最先进的性能，并在不进行微调或特定领域提示工程的情况下，使用大型语言模型 (LLMs) 进行重写，展示出了在各种上下文中具有竞争力的性能。

Oct, 2023

Chainpoll：一种高效的LLM幻觉检测方法

基于大规模语言模型的幻觉检测方法ChainPoll以及用于评估幻觉检测的基准数据集RealHall的介绍和综合比较。

Oct, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

知识图谱对LLMs的幻觉减少效果：一项调查

综述了基于知识图谱的知识增强技术在LLMs中减轻幻觉方面的有效性，将这些方法系统地分类为三个总体组，提供了方法比较和性能的实证评估，最后探讨了这些技术所面临的挑战，并概述了这个新兴领域的未来研究方向。

Nov, 2023

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查LLMs拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以88%的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解LLMs在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024

通过自我完善增强的知识检索减轻大型语言模型的幻觉

在医学领域中，通过使用自我完善的知识图谱检索方法（Re-KGR），我们可以显著提高大型语言模型的真实性，降低谬误并减少虚构内容。

May, 2024

HalluDial: 自动对话层次的大规模幻觉评估基准

提出HalluDial，这是首个用于自动对话级幻觉评估的综合大规模基准测试。HalluDial包含了以上文提到的内容，并包括了分为自发和感应性的幻觉情景，并涵盖了实际性幻觉和忠实性幻觉。

Jun, 2024

利用图结构检测大型语言模型中的幻觉

利用潜在空间结构及图结构和注意力网络检测大语言模型生成的幻觉，并通过对比学习提高模型鲁棒性。

Jul, 2024

基于知识图谱训练语言模型：对幻觉及其可检测性的洞察

本研究针对语言模型的幻觉问题，特别是训练集中的正确答案如何影响幻觉现象。通过构建知识图谱数据集并训练不同规模的语言模型，发现更大的模型和更长的训练时间会降低幻觉发生率，但要实现较低的幻觉率需要显著更大的模型和计算成本。此外，研究还揭示了语言模型的规模与幻觉可检测性之间的逆向关系。

Aug, 2024

大型语言模型也会幻觉图：一种结构视角

本研究探讨了大型语言模型（LLMs）在生成图形时的幻觉现象，特别是它们在回答著名图形问题时产生的不准确输出。文章提出了一种新的衡量指标——图形图谱距离，以评估这些幻觉的广度，从而为分类和理解LLMs的输出提供了新视角。研究结果显示，LLMs产生的这些结构性幻觉可以丰富我们对其输出性能的理解。

Aug, 2024