PoLLMgraph: 大型语言模型中透过状态转换动态解开幻觉

Apr, 2024

PoLLMgraph: 大型语言模型中透过状态转换动态解开幻觉

PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics

Derui Zhu, Dingfan Chen, Qing Li, Zongxiong Chen, Lei Ma...

TL;DR我们提出了 PoLLMgraph，一种用于大型语言模型的多种同类白盒检测和预测方法，通过分析生成过程中 LLM 的内部状态转换动态来有效地检测虚构现象，实验证明其比现有方法在 TruthfulQA 等常见基准数据集上具有 20% 以上的 AUC-ROC 改进效果，为 LLM 的模型化白盒分析开辟了新的途径。

Abstract

Despite tremendous advancements in large language models (LLMs) over recent years, a notably urgent challenge for their practical deployment is the phenomenon of hallucination, where the model fabricates facts an

large language models hallucination pollmgraph white-box detection probabilistic models

发现论文，激发创造

Chainpoll：一种高效的 LLM 幻觉检测方法

基于大规模语言模型的幻觉检测方法 ChainPoll 以及用于评估幻觉检测的基准数据集 RealHall 的介绍和综合比较。

Oct, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

基于大型语言模型内部状态的非监督实时幻觉检测

LLMs 出现的幻觉指的是 LLMs 产生的回应在逻辑上是连贯的，但事实上是不准确的。本文引入了一种名为 MIND 的无监督训练框架，利用 LLMs 的内部状态实时检测幻觉，无需手动注释，并提出了用于评估多个 LLMs 幻觉检测的新基准 HELM。我们的实验证明，MIND 在幻觉检测方面优于现有的最先进方法。

Mar, 2024

关于事实问答中幻觉的早期检测

我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉，结果表明这些指标在幻觉生成和非幻觉生成之间存在差异，我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉，此二分类器的 AUROC 值达到 0.80，并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。

Dec, 2023

LLM 对幻觉是否有了解？LLM 隐藏状态的实证研究

大型语言模型 (LLMs) 可能会产生虚假答案，本研究旨在探讨 LLMs 是否知晓此虚假现象，并研究其反应和程度。通过实验框架检查 LLM 在回答问题和产生虚假回答时的隐藏状态差异，并得出实证发现发现，LLMs 在处理真实回答和虚假回答时有所不同，然后应用各种模型解释技术进一步理解并解释这些发现，同时利用 LLM 隐藏表示空间的引导推导出减少幻觉的潜力。本研究揭示了 LLMs 反应幻觉的答案制备过程，并提出减少其发生频率的方法。

Feb, 2024

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

基于马尔可夫链的多主体辩论框架用于检测 LLM 虚构

我们提出了基于马尔可夫链的多代理辩论验证框架，用于增强简要声明中的错误检测准确性，并通过包括声明检测、证据检索和多代理验证在内的事实检查过程集成验证的方法。实验证明，我们的方法在三个生成任务中相比基准线实现了显著改进。

Jun, 2024

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024

LLM 多边考验：通过中间数据分析揭示 LLM 的事实辨别能力

基于 LLMs 的内部状态，我们引入了 LLM factoscope，一个基于 Siamese 网络的新型模型，用于事实检测。我们的研究揭示了 LLMs 在生成事实和非事实内容时内部状态的可区分模式，并在各种体系结构上展示了 LLM factoscope 的效果，在事实检测方面达到了超过 96% 的准确率。我们的工作为利用 LLMs 的内部状态进行事实检测开辟了一条新途径，并鼓励进一步探究 LLMs 的内部工作，以提高可靠性和透明度。

Dec, 2023