如何捕捉一个 AI 撒谎者：通过提出无关问题来检测黑盒 LLMs 中的谎言

Sep, 2023

如何捕捉一个 AI 撒谎者：通过提出无关问题来检测黑盒 LLMs 中的谎言

How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions

Lorenzo Pacchiardi, Alex J. Chan, Sören Mindermann, Ilan Moscovitz, Alexa Y. Pan...

TL;DR通过提出一个简单的黑盒检测器，在事实问题下，只需通过预定义的一系列无关联的后续问题以及将大型语言模型的否定 / 肯定回答输入到逻辑回归分类器中，我们发现大型语言模型存在特定的与说谎相关的行为模式，这表明它们可以用于实现通用目的的说谎检测。

Abstract

large language models (LLMs) can "lie", which we define as outputting false statements despite "knowing" the truth in a demonstrable sense. LLMs might "→

large language models lie lie detector logistic regression classifier general-purpose lie detection

发现论文，激发创造

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023

LLM 内在状态知道自己在撒谎

介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

语言模型仍缺乏测谎器：探究经验和概念障碍

我们考虑大型语言模型是否具有信念，以及如果它们确实具有信念，我们如何衡量它们。在评估两种现有方法失败后，我们认为即使 LLMs 具有信念，在概念上这些方法也不太可能成功。因此，还没有 LLMs 的测谎仪。我们总结了研究结果，并提出了一些未来工作的具体路径。

Jun, 2023

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

在 Llama 中定位撒谎：通过提示、探究和修补解析对真假问题上的指导诚实行为

通过对大型语言模型进行研究，本文探究了指示性不诚实，即明确要求 LLaMA-2-70b-chat 撒谎，通过提示工程方法找到了最能引起撒谎行为的提示语，并使用机械性可解释性方法定位了网络中发生这种行为的位置，在这五个层中找出 46 个特别重要的注意力头，使我们能够有针对性地干预以使撒谎模型诚实回答问题，我们展示了这些干预对于多个提示和数据集分割都具有稳健的效果，总体而言，我们的工作有助于更深入理解 LLMs 中的不诚实行为，以便我们能够希望防止它的发生。

Nov, 2023

LLM 生成的黑盒解释在对抗场景中具备帮助性

当解答复杂问题时，大型语言模型（LLMs）作为数字助手成为重要工具，然而我们的研究揭示了这种方法中隐藏的风险，称之为 “对抗性有益性”，即 LLMs 的解释使错误答案看起来正确，潜在地导致人们相信错误的解决方案。本文通过识别和研究 LLMs 采用的关键说服策略，揭示出 LLMs 在这方面存在的问题，并通过基于图形导航的特殊任务，验证了 LLMs 生成对抗性有益性解释时导航复杂结构化知识的能力。这些发现明确了黑盒解释设置的局限性，并提供了如何安全使用 LLMs 作为解释器的建议。

May, 2024

LLM 多边考验：通过中间数据分析揭示 LLM 的事实辨别能力

基于 LLMs 的内部状态，我们引入了 LLM factoscope，一个基于 Siamese 网络的新型模型，用于事实检测。我们的研究揭示了 LLMs 在生成事实和非事实内容时内部状态的可区分模式，并在各种体系结构上展示了 LLM factoscope 的效果，在事实检测方面达到了超过 96% 的准确率。我们的工作为利用 LLMs 的内部状态进行事实检测开辟了一条新途径，并鼓励进一步探究 LLMs 的内部工作，以提高可靠性和透明度。

Dec, 2023

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

关于 LLM 在篡改检测领域的能力研究

自 2020 年以来，特别是自 2020 年初以来，大语言模型 (LLMs) 已成为解决各种挑战的最强大的人工智能工具，从自然语言处理到各个领域的复杂问题解决。在伪造检测领域，LLMs 能够识别基本的篡改活动。为了评估 LLMs 在更专业领域的能力，我们收集了由各个公司开发的五种不同的 LLMs：GPT-4、LLaMA、Bard、ERNIE Bot 4.0 和通以谦闻。这种多样化的模型允许对它们在检测复杂篡改实例方面的性能进行全面评估。我们设计了两个检测领域：人工智能生成内容 (AIGC) 检测和篡改检测。AIGC 检测旨在测试区分图像是真实还是人工生成的能力。另一方面，篡改检测专注于识别篡改图像。根据我们的实验，大多数 LLMs 能够识别与逻辑不一致的复合图片，只有更强大的 LLMs 能够识别人眼可见的篡改迹象。所有 LLMs 都不能识别精心伪造的图像和由人工智能生成的非常逼真的图像。在伪造检测领域，LLMs 仍然有很长的路要走，特别是在可靠地识别高度复杂的伪造和非常逼真地模仿现实的 AI - 生成图像方面。

Jan, 2024