如何捕捉一个 AI 撒谎者:通过提出无关问题来检测黑盒 LLMs 中的谎言
提出了一种新颖的自我检测方法,通过扩展问题的文本表达并收集相应的答案,检测大型语言模型(LLMs)是否会产生虚假回答,证明了该方法在 LLM 效果上的有效性。
Oct, 2023
我们考虑大型语言模型是否具有信念,以及如果它们确实具有信念,我们如何衡量它们。在评估两种现有方法失败后,我们认为即使 LLMs 具有信念,在概念上这些方法也不太可能成功。因此,还没有 LLMs 的测谎仪。我们总结了研究结果,并提出了一些未来工作的具体路径。
Jun, 2023
这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题,旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现,在处理无法回答问题的同时,通过针对训练数据中缺失信息设计的对抗性问答基准测试,经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外,通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此,我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。
Nov, 2023
通过对大型语言模型进行研究,本文探究了指示性不诚实,即明确要求 LLaMA-2-70b-chat 撒谎,通过提示工程方法找到了最能引起撒谎行为的提示语,并使用机械性可解释性方法定位了网络中发生这种行为的位置,在这五个层中找出 46 个特别重要的注意力头,使我们能够有针对性地干预以使撒谎模型诚实回答问题,我们展示了这些干预对于多个提示和数据集分割都具有稳健的效果,总体而言,我们的工作有助于更深入理解 LLMs 中的不诚实行为,以便我们能够希望防止它的发生。
Nov, 2023
当解答复杂问题时,大型语言模型(LLMs)作为数字助手成为重要工具,然而我们的研究揭示了这种方法中隐藏的风险,称之为 “对抗性有益性”,即 LLMs 的解释使错误答案看起来正确,潜在地导致人们相信错误的解决方案。本文通过识别和研究 LLMs 采用的关键说服策略,揭示出 LLMs 在这方面存在的问题,并通过基于图形导航的特殊任务,验证了 LLMs 生成对抗性有益性解释时导航复杂结构化知识的能力。这些发现明确了黑盒解释设置的局限性,并提供了如何安全使用 LLMs 作为解释器的建议。
May, 2024
基于 LLMs 的内部状态,我们引入了 LLM factoscope,一个基于 Siamese 网络的新型模型,用于事实检测。我们的研究揭示了 LLMs 在生成事实和非事实内容时内部状态的可区分模式,并在各种体系结构上展示了 LLM factoscope 的效果,在事实检测方面达到了超过 96% 的准确率。我们的工作为利用 LLMs 的内部状态进行事实检测开辟了一条新途径,并鼓励进一步探究 LLMs 的内部工作,以提高可靠性和透明度。
Dec, 2023
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
自 2020 年以来,特别是自 2020 年初以来,大语言模型 (LLMs) 已成为解决各种挑战的最强大的人工智能工具,从自然语言处理到各个领域的复杂问题解决。在伪造检测领域,LLMs 能够识别基本的篡改活动。为了评估 LLMs 在更专业领域的能力,我们收集了由各个公司开发的五种不同的 LLMs:GPT-4、LLaMA、Bard、ERNIE Bot 4.0 和通以谦闻。这种多样化的模型允许对它们在检测复杂篡改实例方面的性能进行全面评估。我们设计了两个检测领域:人工智能生成内容 (AIGC) 检测和篡改检测。AIGC 检测旨在测试区分图像是真实还是人工生成的能力。另一方面,篡改检测专注于识别篡改图像。根据我们的实验,大多数 LLMs 能够识别与逻辑不一致的复合图片,只有更强大的 LLMs 能够识别人眼可见的篡改迹象。所有 LLMs 都不能识别精心伪造的图像和由人工智能生成的非常逼真的图像。在伪造检测领域,LLMs 仍然有很长的路要走,特别是在可靠地识别高度复杂的伪造和非常逼真地模仿现实的 AI - 生成图像方面。
Jan, 2024