大规模语言模型生成中的幻觉检测：基于词元概率的方法

May, 2024

大规模语言模型生成中的幻觉检测：基于词元概率的方法

Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach

Ernesto Quevedo, Jorge Yero, Rachel Koerner, Pablo Rivas, Tomas Cerny

TL;DR使用两个简单的分类器和从其他 LLM 评估器获得的四个数值特征，本文引入了一种监督学习方法，取得了有希望的结果，并在三个不同基准测试中超越了当前最先进的成果。

Abstract

Concerns regarding the propensity of large language models (LLMs) to produce inaccurate outputs, also known as hallucinations, have escalated. Detecting them is vital for ensuring the reliability of applications

large language models hallucinations supervised learning numerical features llm evaluators

发现论文，激发创造

增强基于不确定性的错觉检测与更强的关注

本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法，通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性（如类型和频率），实现了最新的检测方法，消除了对额外信息的需求。

Nov, 2023

不要完全相信所读之事：通过对大型语言模型中幻觉的自动识别来增强摘要解释性

这篇论文通过深入探讨大型语言模型在幻觉方面的行为，定义了一种基于标记的方法以识别不同类型的幻觉，并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度，同时提出了一个新的改进数据集和训练范式。

Dec, 2023

关于事实问答中幻觉的早期检测

我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉，结果表明这些指标在幻觉生成和非幻觉生成之间存在差异，我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉，此二分类器的 AUROC 值达到 0.80，并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。

Dec, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

MetaToken: 通过元分类检测图像描述中的虚构

通过引入 MetaToken，该研究提出了一种轻量级二元分类器来在低成本下检测大规模视觉语言模型中的幻觉，揭示了之前研究中忽视的 LVLMs 幻觉的关键因素，并在四个最先进的 LVLM 上进行了评估，证明了该方法的有效性。

May, 2024

检测条件神经序列生成中产生的虚假内容

本文介绍了一种使用预训练模型和人工标注数据来检测神经序列模型输出中的虚构内容，并在机器翻译和摘要生成等任务中获得显著效果的方法。

Nov, 2020

幻觉检测与幻觉减缓：一项研究

大型语言模型（如 ChatGPT、Bard 和 Llama）在不同领域的应用中取得了显著的成功。然而，虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献，旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。

Jan, 2024

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024