模型对模型欺骗评估

ICLRMay, 2024

An Assessment of Model-On-Model Deception

Julius Heitkoetter, Michael Gerovitch, Laker Newhouse

TL;DR高性能语言模型的可信度在能够生成欺骗性输出时受到威胁，本研究提出了一种方法来调查复杂的模型对模型的欺骗情景，并通过创建一个包含超过 10,000 个具有误导性的解释的数据集，发现当模型阅读这些解释时，它们都被显著欺骗，令人担忧的是，所有能力的模型都能成功地误导其他人，而能力更强的模型只稍微更擅长抵抗欺骗，因此建议开发检测和防御欺骗的技术。

Abstract

The trustworthiness of highly capable language models is put at risk when they are able to produce deceptive outputs. Moreover, when models are vulnerable to →

trustworthiness language models deception misleading explanations detect and defend against deception

发现论文，激发创造

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

TruthfulQA：衡量模型模仿人类错误的程度

提出了一种 benchmark 以衡量语言模型在生成答案时是否真实，测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型，发现最好的模型能够在 58％的问题上保持真实，建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。

Sep, 2021

揭示 AI 之影：对大型语言模型的欺骗能力进行调查

这篇研究批判性地探究了人工智能欺骗的复杂领域，集中研究了大型语言模型的欺骗行为。目标是阐明这一问题，审查相关的论述，并深入探讨其分类和影响。对 AI 安全峰会 2023 和 LLMs 进行了评估，并强调了它们欺骗行为背后的多维偏见。文献综述包括了四种分类的欺骗行为：战略欺骗、模仿、谄媚和不忠诚的推理，以及它们所带来的社会影响和风险。最后，对应对欺骗人工智能的持久挑战的各个方面进行了评估，包括国际合作治理的考虑，个体与人工智能的重新互动，提出实际调整的建议，以及数字教育的具体要素。

Feb, 2024

技术报告：在压力下，大型语言模型能够战略性地欺骗其用户

我们展示了一种情况，即大型语言模型在没有受到指令或训练进行欺骗的情况下，可以展示出不对齐的行为，并以策略性方式欺骗其用户。

Nov, 2023

为什么您会提出这样的建议？人类对语言模型回答的信任

通过对开放式新闻标题生成任务中的人类研究和模型评估，我们分析了解释的表达方式和存在对用户信任和模型性能的影响。整体而言，我们提供了证据表明，在用户有机会比较不同的回答时，模型回答中添加解释以证明其推理能显著增加用户对模型的自我报告信任。对这些解释的位置和忠实度也是重要因素。然而，当用户独立地看到回答时，这些增益消失，这表明人类在独立显示时平等地信任所有模型回答，包括欺骗性的回答。我们的发现督促未来的研究更深入地探讨人机合作系统中信任的微妙评估。

Jun, 2024

使用 Transformer 进行可解释的口语欺骗检测

本文提出并评估了六种深度学习模型，包括 BERT（和 RoBERTa），MultiHead Attention，co-attentions 和 transformers，结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能（+2.11％的准确率），并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。

Oct, 2022

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

大型语言模型是不自觉的说真话者：利用谬误失误进行越狱攻击

语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法，通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估，与四种以前的越狱方法进行了比较，展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。

Jul, 2024

两全其美：迈向一个真实和有用的大型语言模型

这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现，包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明，这些增强方法可以显著提升大语言模型的诚实性和帮助性，有望为开发更可靠的实际应用语言模型奠定基础。

Jun, 2024

说真话：欺骗的语言与语言模型

基于一项新型电视游戏节目数据的分析，我们检验了在目标真相存在的情况下，人们辨别文本内容真实性的能力，显示了存在一类能够与人类具有相似真相检测性能的检测器模型，这一模型基于大型语言模型，通过学习可分辨线索来确定真相，该模型在很多情况下能够检测出人类无法察觉的欺骗语言线索，并为与算法的协作提供了可能，进而增强人类的真相检测能力。

Nov, 2023