大型语言模型的内在表征与幻觉：了解其知识的深度

Oct, 2024

大型语言模型的内在表征与幻觉：了解其知识的深度

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

Hadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor...

TL;DR本研究针对大型语言模型（LLMs）在生成内容时常见的错误，如事实不准确和推理失败，提出了新见解。研究发现，LLMs的内部表征不仅编码了更多关于输出真实性的信息，还揭示了特定标记中集中的真实性信息，从而显著提高错误检测的性能。最重要的是，这项工作显示了内部编码与外部行为之间的差异，为未来的错误分析和缓解提供了方向。

Abstract

Large Language Models (LLMs) often produce errors, including factual inaccuracies, biases, and reasoning failures, collectively referred to as "Hallucinations". Recent studies have demonstrated that LLMs' interna

发现论文，激发创造

LLM内在状态知道自己在撒谎

介绍了一种基于大型语言模型的“激活函数值”的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023

真实的几何：大型语言模型在真假数据集表示中的出现线性结构

大语言模型(LLM)可以输出令人印象深刻的结果，但也容易输出错误信息。最近的研究开发了一种通过对LLM的内部激活进行训练推断LLM是否在讲真话的技术。然而，这一研究领域颇具争议，一些作者指出该方法在一些基本方面无法推广，存在概念上的问题。在本研究中，我们精心策划了一组高质量的真/假语句数据集，并利用这些数据集详细研究了LLM对真实性的表示结构，从三个方面获得证据：1.展示LLM真/假语句表示的可视化结果，揭示了明显的线性结构；2.将在一个数据集上训练的推断器推广到不同数据集的转移实验；3.通过对LLM前向传递进行手术干扰，使其将假语句视为真实或将真实语句视为假。总体而言，我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术，质量均值推断法，比其他推断技术具有更好的推广性和更多地与模型输出相关。

Oct, 2023

在LLMs中重新定义“幻觉”：朝着心理学指导的框架缓解错误信息

通过基于认知偏见和其他心理现象的心理分类学，我们质疑将“幻觉”一词应用于大型语言模型，并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略，为提高LLM的可靠性提供细致精确的理解和可操作的途径。

Feb, 2024

自我对齐以提高事实准确性: 通过自我评估减少LLMs中的幻觉

探索使用自我评估和自我知识调整的自对齐方法，以增强大语言模型的事实准确性。

Feb, 2024

内部表征视角下的上下文锐度作为警报：减轻幻觉

大型语言模型经常出现虚幻和事实错误，本研究从内部表征的角度探讨了LLM幻觉的潜在机制，并发现了与幻觉相关的显著模式：相对于错误生成，正确生成在上下文令牌的隐藏状态中具有更尖锐的上下文激活。基于这一发现，我们提出了一种基于熵的度量方式来量化上下文隐藏状态中的“尖锐度”，并将其纳入解码过程中，形成一种约束解码方法。在各种知识获取和幻觉评估基准测试上进行的实验表明我们的方法具有持续的有效性，例如在TruthfulQA上获得了高达8.6个百分点的提升。我们相信这项研究可以改善我们对幻觉的理解，并作为幻觉缓解的实用解决方案。

Mar, 2024

语言模型中忠实与不忠实推理的分离

大型语言模型（LLMs）在输出答案之前生成思维链推理文本可以提高其在下游任务中的性能。我们的研究调查了LLMs在思维链中出现错误时如何还原并最终得出正确答案，我们发现存在思维链不忠实的证据，但我们也找到了许多明确的忠实错误还原行为。我们确定了影响LLM还原行为的因素：LLMs在明显的错误和能提供更多正确答案证据的情境中更频繁地还原。然而，不忠实的还原行为则表现相反，在更困难的错误位置更频繁地发生。我们的研究结果显示，驱动忠实和不忠实错误还原的机制是不同的，这对LLM的推理是一个统一、连贯过程的观点提出了挑战。

May, 2024

LLM内部状态揭示面对查询时的幻觉风险

研究大型语言模型的幻觉问题如何通过自我感知估计幻觉风险，通过对神经元、激活层和令牌的研究，提出了一种探测器来实现语言模型的自我评估，试验结果表明其幻觉估计准确率达到84.32%。

Jul, 2024

关于LLMs内部的普遍真实性超平面

通过扩大训练数据集的多样性，研究发现大语言模型中普遍存在一个可以区分正确和错误输出的真实性超平面，从而提供了未来研究的有希望的方向。

Jul, 2024

大型语言模型总会出现幻觉，我们需要与此共存

本研究解决了大型语言模型（LLMs）中幻觉的不可避免性问题，强调幻觉不是偶然错误，而是这些系统固有的特性。通过引入“结构幻觉”概念，本论文表明幻觉源于LLM的基本数学和逻辑结构，指出无法通过架构改进或数据集增强完全消除幻觉，从而对现有观点提出挑战。

Sep, 2024

大型语言模型的内在表示与幻觉

本文研究了大型语言模型（LLMs）生成错误（即幻觉）的内在机制，发现其内部状态包含更多关于输出真实性的信息，这一信息集中在特定的标记上，能显著提升错误检测的性能。此外，研究表明，LLMs的错误编码并非普遍适用，而是多样化的，且内部编码和外部行为之间存在差异。该研究加深了我们对LLMs错误的理解，对未来改进错误分析和缓解策略具有重要指导意义。

Oct, 2024