FLIRT: 反馈回路内上下文的红队作战

Aug, 2023

FLIRT: 反馈回路内上下文的红队作战

FLIRT: Feedback Loop In-context Red Teaming

Ninareh Mehrabi, Palash Goyal, Christophe Dupuy, Qian Hu, Shalini Ghosh...

TL;DR通过提出一种自动红队框架，我们展示了如何评估给定模型并暴露其对不安全和不适当内容生成的漏洞，并通过上下文学习和不同攻击策略来自动学习对图像生成模型有效多样的对抗提示。我们的实验证明，与基线方法相比，我们提出的策略在暴露 Stable Diffusion（SD）模型的漏洞方面效果明显更好，即使后者已经增强了安全功能。此外，我们还展示了该框架对文本生成模型的红队效果，相较于以前报道的数据，显著提高了生成有害响应的概率。

Abstract

Warning: this paper contains content that may be inappropriate or offensive. As generative models become available for public use in various applications, testing and analyzing vulnerabilities of these models has

generative models red teaming framework vulnerabilities unsafe content generation adversarial prompts

发现论文，激发创造

针对阿喀琉斯之踵的调查：生成模型的红队演练

生成模型和红队的攻击策略研究与语言模型的功能能力密切相关，调查还涉及到多模式攻击等新领域，希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。

Mar, 2024

从零开始进行红队攻防测试语言模型的探索、建立和利用

本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。

Jun, 2023

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化

使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。

May, 2024

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为 ART 的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024

Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

利用 Prompting4Debugging (P4D) 工具，我们发现了 Stable Diffusion（SD）模型中的新脆弱性，显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制，包括概念删除、负面提示和安全指导。这些发现表明，在没有全面测试的情况下，对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。

Sep, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

对抗性 Nibbler：一种用于识别文本到图像生成中多样化伤害的开放式红队方法

从生成图像的文本到图像（T2I）生成 AI 模型的发展中，评估模型对非明显攻击的鲁棒性至关重要。在本文中，我们通过关注 “隐式对抗” 提示（触发 T2I 模型因非明显原因生成不安全图像的提示），独立确定了一组难以发现的安全问题，而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge，一种用于众包隐式对抗提示的红队方法，我们汇集了一套最先进的 T2I 模型，并采用简单的用户界面来识别和注释伤害，与不同人群合作，以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行，以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具，方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释，其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现，人类认为有害的图像中，有 14％被机器错误标记为 “安全”。我们已经发现了新的攻击策略，凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估，并促进 T2I 模型的负责开发。

Feb, 2024

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022