大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

Feb, 2024

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

Large Language Models are Vulnerable to Bait-and-Switch Attacks for Generating Harmful Content

Federico Bianchi, James Zou

TL;DR通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Abstract

The risks derived from large language models (LLMs) generating deceptive and damaging content have been the subject of considerable research, but even safe generations can lead to problematic downstream impacts.

large language models deceptive content damaging content bait-and-switch attacks toxic content

发现论文，激发创造

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

LLMs 在非法目的中的使用：威胁、预防措施和漏洞

本文在探讨大语言模型的发展和分发迅速增长的背景下，关注其安全和安全相关威胁和漏洞的最新研究工作，并提供了已有的科学努力概述，以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作，希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。

Aug, 2023

使用语言模型对抗语言模型检测器

本文研究了如何攻击已有的机器文字生成检测算法，并验证了所有被测试的检测器的鲁棒性。结果表明，开发更加鲁棒的机器文字检测系统有着迫切的需求。

May, 2023

大型语言模型在在线防搭讪中的功效探究

强大的生成型大语言模型 (LLMs) 成为了公众问答系统中流行的工具，而且正在被像儿童这样的弱势群体使用。本文探讨了 LLMs 在在线防止网络诱导方面的有效性，包括通过生成建议来识别和避免诱导，并且通过改变提供的上下文和提示的特异性来研究提示设计对模型性能的影响。通过对超过 6000 个 LLM 的互动进行反思，我们发现没有一个模型明确适用于在线防止网络诱导，行为的一致性缺乏，并且存在潜在的有害答案生成，特别是来自开源模型。我们概述了模型的不足之处，并提出了改进建议，并确定了严重改变模型性能的提示设计，并得出研究结果可用于制定最佳实践使用指南。

Mar, 2024

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

语言生成模型可能会造成伤害：那我们能做些什么？一份可执行的调查

本文对语言生成模型潜在威胁与社会危害进行了调查研究，提供了探查与缓解风险和伤害的实用方法，旨在为大型语言模型研究人员和从业者提供实用指南。

Oct, 2022

跳出规则：多轮对话中大型语言模型的安全漏洞

人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。

Feb, 2024

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024