LLM 对幻觉是否有了解？LLM 隐藏状态的实证研究

Feb, 2024

LLM 对幻觉是否有了解？LLM 隐藏状态的实证研究

Do LLMs Know about Hallucination? An Empirical Investigation of LLM's Hidden States

Hanyu Duan, Yi Yang, Kar Yan Tam

TL;DR大型语言模型 (LLMs) 可能会产生虚假答案，本研究旨在探讨 LLMs 是否知晓此虚假现象，并研究其反应和程度。通过实验框架检查 LLM 在回答问题和产生虚假回答时的隐藏状态差异，并得出实证发现发现，LLMs 在处理真实回答和虚假回答时有所不同，然后应用各种模型解释技术进一步理解并解释这些发现，同时利用 LLM 隐藏表示空间的引导推导出减少幻觉的潜力。本研究揭示了 LLMs 反应幻觉的答案制备过程，并提出减少其发生频率的方法。

Abstract

large language models (LLMs) can make up answers that are not real, and this is known as hallucination. This research aims to see if, how, and to what extent LLMs are aware of →

large language models hallucination hidden states experimental framework model interpretation

发现论文，激发创造

自信过度的大型语言模型隐藏状态中的幻觉无法解答现象

当生成虚幻答案时，大型语言模型表达问题是否无法回答的事实，结果表明，LLMs 的潜在表示中存在空间组织机制，揭示了这些模型以前未被探索的方面。同时，为了更好地遵守事实生成，特别是在问题无法回答的情况下，这些发现为改进解码技术的发展铺平了道路。

Oct, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024

基于大型语言模型内部状态的非监督实时幻觉检测

LLMs 出现的幻觉指的是 LLMs 产生的回应在逻辑上是连贯的，但事实上是不准确的。本文引入了一种名为 MIND 的无监督训练框架，利用 LLMs 的内部状态实时检测幻觉，无需手动注释，并提出了用于评估多个 LLMs 幻觉检测的新基准 HELM。我们的实验证明，MIND 在幻觉检测方面优于现有的最先进方法。

Mar, 2024

大规模法律虚构：对大型语言模型中的法律幻觉进行剖析

律师常见的经验法则错误假设对大型语言模型的查询及其常见的法律幻觉有极高百分比的影响，通过比较与结构化法律元数据的调查结果，并研究法律规定的一系列查询结果，我们开发了一种法律幻觉的分类方法，并提醒了不应迅速自主将流行的大型语言模型整合到法定任务中。

Jan, 2024

消除 LLM 幻觉需要重新思考泛化

通过广泛系统实验，我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉，并通过大量内存专家的混合来增强 LLMs，可以轻松地记忆大数据集，为去除幻觉设计了 Lamini-1 模型。

Jun, 2024

分类和减轻 LLMs 的幻觉的洞察力

本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义，并就幻觉分类进行了研究，包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时，本研究探讨了缓解幻觉的潜在策略，旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi（Health-Related Fake News Mitigation）项目的一部分，该项目得到 NGI Search 的慷慨支持，旨在抑制互联网上健康相关虚假新闻的传播，致力于在不断演进的人工智能技术时代保护信息传播的完整性。

Nov, 2023

学会相信自己的感受：在语言模型中利用自我意识缓解幻觉

通过使用知识探测、一致性检查和强化学习等方法，我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识，然而它们在生成过程中常常无法表达其内部知识，导致虚构。为此，我们提出了一种自动虚构注释工具，通过梦网，该工具将知识探测和一致性检查方法结合起来，以排名虚构偏好数据。通过使用知识偏好作为奖励，我们提出了一种从知识反馈中强化学习（RLKF）的训练框架，利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明，RLKF 训练有效地增强了模型利用其内部知识状态的能力，在各种基于知识和诚实性的任务中提高了性能。

Jan, 2024

幻觉检测与幻觉减缓：一项研究

大型语言模型（如 ChatGPT、Bard 和 Llama）在不同领域的应用中取得了显著的成功。然而，虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献，旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。

Jan, 2024