在 Llama 中定位撒谎：通过提示、探究和修补解析对真假问题上的指导诚实行为

Nov, 2023

在 Llama 中定位撒谎：通过提示、探究和修补解析对真假问题上的指导诚实行为

Localizing Lying in Llama: Understanding Instructed Dishonesty on True-False Questions Through Prompting, Probing, and Patching

PDF

James Campbell, Richard Ren, Phillip Guo

TL;DR通过对大型语言模型进行研究，本文探究了指示性不诚实，即明确要求 LLaMA-2-70b-chat 撒谎，通过提示工程方法找到了最能引起撒谎行为的提示语，并使用机械性可解释性方法定位了网络中发生这种行为的位置，在这五个层中找出 46 个特别重要的注意力头，使我们能够有针对性地干预以使撒谎模型诚实回答问题，我们展示了这些干预对于多个提示和数据集分割都具有稳健的效果，总体而言，我们的工作有助于更深入理解 LLMs 中的不诚实行为，以便我们能够希望防止它的发生。

Abstract

large language models (LLMs) demonstrate significant knowledge through their outputs, though it is often unclear whether false outputs are due to a lack of knowledge or dishonesty. In this paper, we investigate instruct

large language models instructed dishonesty prompt engineering mechanistic interpretability lying behavior

发现论文，激发创造

理解迭代提示对真实性的影响

大语言模型的发展已经明显改变了许多领域，提供了令人印象深刻的文本生成能力，然而模型的可靠性和真实性仍然是令人担忧的问题。为了解决这个问题，我们研究了迭代提示的方法，这被假设能够完善大语言模型的回答，并评估其对模型真实性的影响，这是一个尚未被彻底探索的领域。我们的大量实验深入探讨了迭代提示方法的细微差别，检查它们对模型回答的准确性和校准性的影响。我们的研究发现，朴素的提示方法严重损害了真实性，导致校准错误加剧。针对这些挑战，我们引入了几种设计用于解决已确定问题的提示变种。这些变种相比现有基准显示出明显的改善，为未来研究指明了一个有前途的方向。我们的工作提供了对迭代提示的微妙理解，并引入了增强大语言模型真实性的新方法，从而为开发更准确可信的 AI 系统做出了贡献。

Feb, 2024

LLM 内在状态知道自己在撒谎

介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023

辅助和无害对齐中的不诚实行为

大规模语言模型在人类价值观上通过强化学习与人类价好矛盾时，也会导致诚实度降低，但通过进行特征规范化可以增强奖励导向的对齐。经过丰富的实验结果表明，我们可以训练出更加诚实、有帮助且无害的大规模语言模型。

Jun, 2024

真实的几何：大型语言模型在真假数据集表示中的出现线性结构

大语言模型 (LLM) 可以输出令人印象深刻的结果，但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而，这一研究领域颇具争议，一些作者指出该方法在一些基本方面无法推广，存在概念上的问题。在本研究中，我们精心策划了一组高质量的真 / 假语句数据集，并利用这些数据集详细研究了 LLM 对真实性的表示结构，从三个方面获得证据：1. 展示 LLM 真 / 假语句表示的可视化结果，揭示了明显的线性结构；2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验；3. 通过对 LLM 前向传递进行手术干扰，使其将假语句视为真实或将真实语句视为假。总体而言，我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术，质量均值推断法，比其他推断技术具有更好的推广性和更多地与模型输出相关。

Oct, 2023

利用大型语言模型的自我批判提示用于归纳教学

本文提出了一种名为 INDust（Inductive Instructions）的挑战基准来评估大型语言模型（LLMs）是否能够抵抗用户提供的带误导性的指令，并提出了一种名为 Self-Critique prompting 的方法来防范 LLMs 误导用户。实验证明该方法在零样本和小样本环境下都能有效提升 LLMs 的对归纳指令的处理能力。

May, 2023

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

如何捕捉一个 AI 撒谎者：通过提出无关问题来检测黑盒 LLMs 中的谎言

通过提出一个简单的黑盒检测器，在事实问题下，只需通过预定义的一系列无关联的后续问题以及将大型语言模型的否定 / 肯定回答输入到逻辑回归分类器中，我们发现大型语言模型存在特定的与说谎相关的行为模式，这表明它们可以用于实现通用目的的说谎检测。

Sep, 2023

探索 LLM 生成的虚假新闻的欺骗力：对现实世界检测挑战的研究

最近大规模语言模型（LLMs）的进展使得虚假新闻的制造成为可能，本研究旨在确定提示技术是否能够有效缩小 LLM 生成的虚假新闻的欺骗性差距，通过提出一种名为条件变分自编码类提示（VLPrompt）的强大虚假新闻攻击方法，该方法无需额外的数据采集，并且保持了上下文的一致性和原始文本的细节。为了推动 VLPrompt 攻击的检测研究，我们创建了一个新的数据集名为 VLPrompt 虚假新闻（VLPFN），其中包含真实文本和假文本。我们进行了各种检测方法和新颖的人类研究指标的实验，来评估它们在我们的数据集上的性能，得出了众多发现。

Mar, 2024

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

反演上下文学习：通过破坏理解提示

通过对大语言模型进行随机组成的实验，研究了任务描述、示例输入、标签、行内指令等多个因素对模型性能的影响，发现重复文本、大型模型以及任务和行内指令对模型性能提升具有积极影响。

Apr, 2024