关于LLMs内部的普遍真实性超平面

Jul, 2024

On the Universal Truthfulness Hyperplane Inside LLMs

Junteng Liu, Shiqi Chen, Yu Cheng, Junxian He

TL;DR通过扩大训练数据集的多样性，研究发现大语言模型中普遍存在一个可以区分正确和错误输出的真实性超平面，从而提供了未来研究的有希望的方向。

Abstract

While large language models (LLMs) have demonstrated remarkable abilities across various fields, hallucination remains a significant challenge. Recent studies have explored hallucinations through the lens of

发现论文，激发创造

DoLa：通过对比层次解码改善大型语言模型中的真实性

通过对比模型的不同层次的逻辑概率分布，通过一个简单的解码策略来减少大语言模型中的幻觉，并提高生成真实、准确事实的能力。

Sep, 2023

TruthX: 在真实空间中编辑大型语言模型以减轻幻觉

TruthX通过编辑语言模型内部表达的真实空间，有效提高了13个先进语言模型在TruthfulQA基准测试上的真实性表现，平均提升了20%。进一步分析表明，TruthX获取的真实空间在控制语言模型产生真实或幻觉性回答中发挥了关键作用。

Feb, 2024

内部表征视角下的上下文锐度作为警报：减轻幻觉

大型语言模型经常出现虚幻和事实错误，本研究从内部表征的角度探讨了LLM幻觉的潜在机制，并发现了与幻觉相关的显著模式：相对于错误生成，正确生成在上下文令牌的隐藏状态中具有更尖锐的上下文激活。基于这一发现，我们提出了一种基于熵的度量方式来量化上下文隐藏状态中的“尖锐度”，并将其纳入解码过程中，形成一种约束解码方法。在各种知识获取和幻觉评估基准测试上进行的实验表明我们的方法具有持续的有效性，例如在TruthfulQA上获得了高达8.6个百分点的提升。我们相信这项研究可以改善我们对幻觉的理解，并作为幻觉缓解的实用解决方案。

Mar, 2024

自适应激活导向：无需调整的多种幻觉类别LLM真实性改进方法

使用适应性激活引导（ACT）方法，可以通过调整大型语言模型（LLMs）的激活方向，在推理过程中提高生成内容的真实性。ACT方法通过利用多样化的引导向量并自适应地调整引导强度，有效应对各种类型的虚构现象。在多种模型中附加应用ACT后，如LLaMA，LLaMA2，Alpaca，Vicuna和LLaMA2-Chat，其真实性显著提高（分别提升142％，24％，36％，28％和19％）。此外，我们还验证了ACT在更大规模模型（13B，33B，65B）上的可扩展性，突显ACT对大型语言模型的适应性。

May, 2024

LLM内部状态揭示面对查询时的幻觉风险

研究大型语言模型的幻觉问题如何通过自我感知估计幻觉风险，通过对神经元、激活层和令牌的研究，提出了一种探测器来实现语言模型的自我评估，试验结果表明其幻觉估计准确率达到84.32%。

Jul, 2024

基于知识图谱训练语言模型：对幻觉及其可检测性的洞察

本研究针对语言模型的幻觉问题，特别是训练集中的正确答案如何影响幻觉现象。通过构建知识图谱数据集并训练不同规模的语言模型，发现更大的模型和更长的训练时间会降低幻觉发生率，但要实现较低的幻觉率需要显著更大的模型和计算成本。此外，研究还揭示了语言模型的规模与幻觉可检测性之间的逆向关系。

Aug, 2024

通过解码时的幻觉和真实比较器改善大型语言模型的事实性

本研究解决了大型语言模型（LLMs）生成与可验证事实相悖的内容这一问题。提出的比较器驱动解码时间（CDT）框架通过构建幻觉和真实比较器，利用多任务微调样本，有效限制了模型的响应幻觉，显著提升了下游任务的模型性能和响应的事实性。

Aug, 2024

大型语言模型总会出现幻觉，我们需要与此共存

本研究解决了大型语言模型（LLMs）中幻觉的不可避免性问题，强调幻觉不是偶然错误，而是这些系统固有的特性。通过引入“结构幻觉”概念，本论文表明幻觉源于LLM的基本数学和逻辑结构，指出无法通过架构改进或数据集增强完全消除幻觉，从而对现有观点提出挑战。

Sep, 2024

大型语言模型的内在表示与幻觉

本文研究了大型语言模型（LLMs）生成错误（即幻觉）的内在机制，发现其内部状态包含更多关于输出真实性的信息，这一信息集中在特定的标记上，能显著提升错误检测的性能。此外，研究表明，LLMs的错误编码并非普遍适用，而是多样化的，且内部编码和外部行为之间存在差异。该研究加深了我们对LLMs错误的理解，对未来改进错误分析和缓解策略具有重要指导意义。

Oct, 2024

大型语言模型的内在表征与幻觉：了解其知识的深度

本研究针对大型语言模型（LLMs）在生成内容时常见的错误，如事实不准确和推理失败，提出了新见解。研究发现，LLMs的内部表征不仅编码了更多关于输出真实性的信息，还揭示了特定标记中集中的真实性信息，从而显著提高错误检测的性能。最重要的是，这项工作显示了内部编码与外部行为之间的差异，为未来的错误分析和缓解提供了方向。

Oct, 2024