自信过度的大型语言模型隐藏状态中的幻觉无法解答现象

EMNLPOct, 2023

自信过度的大型语言模型隐藏状态中的幻觉无法解答现象

The Curious Case of Hallucinatory Unanswerablity: Finding Truths in the Hidden States of Over-Confident Large Language Models

PDF

Aviv Slobodkin, Omer Goldman, Avi Caciularu, Ido Dagan, Shauli Ravfogel

TL;DR当生成虚幻答案时，大型语言模型表达问题是否无法回答的事实，结果表明，LLMs 的潜在表示中存在空间组织机制，揭示了这些模型以前未被探索的方面。同时，为了更好地遵守事实生成，特别是在问题无法回答的情况下，这些发现为改进解码技术的发展铺平了道路。

Abstract

large language models (LLMs) have been shown to possess impressive capabilities, while also raising crucial concerns about the faithfulness of their responses. A primary issue arising in this context is the management of →

large language models unanswerable queries hallucinatory behavior representation latent representations

发现论文，激发创造

LLM 对幻觉是否有了解？LLM 隐藏状态的实证研究

大型语言模型 (LLMs) 可能会产生虚假答案，本研究旨在探讨 LLMs 是否知晓此虚假现象，并研究其反应和程度。通过实验框架检查 LLM 在回答问题和产生虚假回答时的隐藏状态差异，并得出实证发现发现，LLMs 在处理真实回答和虚假回答时有所不同，然后应用各种模型解释技术进一步理解并解释这些发现，同时利用 LLM 隐藏表示空间的引导推导出减少幻觉的潜力。本研究揭示了 LLMs 反应幻觉的答案制备过程，并提出减少其发生频率的方法。

Feb, 2024

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

基于无法回答的数学问题对大型语言模型中的幻象进行基准测试

使用非可回答的数学问题 (UMWP) 的数据集和文本相似度与数学表达式检测相结合的方法，评估了大型语言模型 (LLMs) 在问答任务中的幻觉问题，并通过对 31 个 LLM 进行广泛实验的结果表明，上下文学习和人工反馈强化学习 (RLHF) 训练可以明显提高模型避免幻觉的能力。

Mar, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

不要完全相信所读之事：通过对大型语言模型中幻觉的自动识别来增强摘要解释性

这篇论文通过深入探讨大型语言模型在幻觉方面的行为，定义了一种基于标记的方法以识别不同类型的幻觉，并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度，同时提出了一个新的改进数据集和训练范式。

Dec, 2023

关于事实问答中幻觉的早期检测

我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉，结果表明这些指标在幻觉生成和非幻觉生成之间存在差异，我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉，此二分类器的 AUROC 值达到 0.80，并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。

Dec, 2023

推理任务中大型语言模型产生幻觉的来源

该论文通过对多个大型语言模型的行为研究发现，训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素，这些模型在自然语言推断等应用任务中表现出明显的问题。

May, 2023