LLM 内在状态知道自己在撒谎

Apr, 2023

The Internal State of an LLM Knows When its Lying

Amos Azaria, Tom Mitchell

TL;DR介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Abstract

While large language models (LLMs) have shown exceptional performance in various tasks, their (arguably) most prominent drawback is generating inaccurate or false information with a confident tone. In this paper, we hypothesize that the LLM's internal state can be used to reveal the

large language models truthfulness veracity classifier activation values

发现论文，激发创造

LLM 多边考验：通过中间数据分析揭示 LLM 的事实辨别能力

基于 LLMs 的内部状态，我们引入了 LLM factoscope，一个基于 Siamese 网络的新型模型，用于事实检测。我们的研究揭示了 LLMs 在生成事实和非事实内容时内部状态的可区分模式，并在各种体系结构上展示了 LLM factoscope 的效果，在事实检测方面达到了超过 96% 的准确率。我们的工作为利用 LLMs 的内部状态进行事实检测开辟了一条新途径，并鼓励进一步探究 LLMs 的内部工作，以提高可靠性和透明度。

Dec, 2023

利用局部内在维度表征大型语言模型生成的真实性

我们研究了如何表征和预测由大型语言模型生成的文本的真实性，这在人类与语言模型之间建立信任的过程中起着关键作用。通过对四个问答数据集进行实验，我们提出的方法通过研究内部激活和量化语言模型激活的本地内在维度（LID）来证明其有效性。此外，我们还研究了语言模型中的内在维度及其与模型层、自回归语言建模和语言模型训练的关系，揭示了内在维度在理解语言模型中的潜力。

Feb, 2024

真实的几何：大型语言模型在真假数据集表示中的出现线性结构

大语言模型 (LLM) 可以输出令人印象深刻的结果，但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而，这一研究领域颇具争议，一些作者指出该方法在一些基本方面无法推广，存在概念上的问题。在本研究中，我们精心策划了一组高质量的真 / 假语句数据集，并利用这些数据集详细研究了 LLM 对真实性的表示结构，从三个方面获得证据：1. 展示 LLM 真 / 假语句表示的可视化结果，揭示了明显的线性结构；2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验；3. 通过对 LLM 前向传递进行手术干扰，使其将假语句视为真实或将真实语句视为假。总体而言，我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术，质量均值推断法，比其他推断技术具有更好的推广性和更多地与模型输出相关。

Oct, 2023

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023

如何捕捉一个 AI 撒谎者：通过提出无关问题来检测黑盒 LLMs 中的谎言

通过提出一个简单的黑盒检测器，在事实问题下，只需通过预定义的一系列无关联的后续问题以及将大型语言模型的否定 / 肯定回答输入到逻辑回归分类器中，我们发现大型语言模型存在特定的与说谎相关的行为模式，这表明它们可以用于实现通用目的的说谎检测。

Sep, 2023

当前估计器的可靠性和稳健性：对 LLMs 的事实置信度

大型语言模型的事实准确性不可靠，为了解决这个问题，自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而，由于缺乏系统性的比较，不清楚不同方法之间的差异。为了填补这一空白，我们提出了一个调查和实证比较事实置信度估计器的实验框架，涵盖了事实验证和问题回答。我们的实验结果表明，训练的隐藏状态探针提供了最可靠的置信度估计，但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现，大型语言模型的置信度在语义上等效的输入中往往不稳定，这表明改进模型参数化知识的稳定性有很大的改进空间。

Jun, 2024

揭示 LLMs：时间知识图中潜在表示的演变

通过对 Large Language Models（LLMs）的实证分析，本文提出了一种新的端到端框架，能够解码 LLMs 中隐藏的事实知识，并使用时间性知识图表达其在各层中的演化，以实现对 LLMs 的机理解释。通过局部和全局的解释性分析，揭示了 LLMs 中存在的潜在错误和事实知识的演化模式，从而为 LLMs 的机理解释迈出了一步。

Apr, 2024

在 Llama 中定位撒谎：通过提示、探究和修补解析对真假问题上的指导诚实行为

通过对大型语言模型进行研究，本文探究了指示性不诚实，即明确要求 LLaMA-2-70b-chat 撒谎，通过提示工程方法找到了最能引起撒谎行为的提示语，并使用机械性可解释性方法定位了网络中发生这种行为的位置，在这五个层中找出 46 个特别重要的注意力头，使我们能够有针对性地干预以使撒谎模型诚实回答问题，我们展示了这些干预对于多个提示和数据集分割都具有稳健的效果，总体而言，我们的工作有助于更深入理解 LLMs 中的不诚实行为，以便我们能够希望防止它的发生。

Nov, 2023

我有了 “答案”！问答中 LLMs 隐藏状态的解释

该研究调查了大型语言模型（LLMs）在基于知识的问答环境中的可解释性和可解释性，并提出隐藏状态可以区分正确和错误的模型行为的主要假设。通过测试量化模型 LLaMA-2-7B-Chat、Mistral-7B、Vicuna-7B 和 MuSeRC 问答数据集，分析结果支持所提出的假设。我们还确定了对模型行为产生负面影响的层次。作为假设在实际应用中的前景，我们建议对此类 “薄弱” 层次进行额外培训以提高任务解决的质量。

Jun, 2024

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023