从安全基准筛选敌对提示：关于敌对咬地机挑战的报告

Sep, 2023

从安全基准筛选敌对提示：关于敌对咬地机挑战的报告

Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge

Manuel Brack, Patrick Schramowski, Kristian Kersting

TL;DR文本条件的图像生成模型在图像质量和对齐性方面取得了惊人的结果，然而它们依赖于从网络随机获取的数量庞大的数据集，因此也会生成不安全的内容。作为对 Adversarial Nibbler 挑战的贡献，我们从现有的安全基准中提取了超过 1,000 个潜在对抗性输入，通过对收集到的提示和相应的图像进行分析，揭示了输入过滤器的脆弱性并进一步深入研究了当前生成图像模型中的系统安全问题。

Abstract

text-conditioned image generation models have recently achieved astonishing image quality and alignment results. Consequently, they are employed in a fast-growing number of applications. Since they are highly data-drive

text-conditioned image generation models data-driven unsafe content adversarial nibbler challenge input filters

发现论文，激发创造

对抗性 Nibbler：一个以数据为中心的挑战，用于提高文本到图像模型的安全性

该研究旨在解决文本到图像（text-to-image，T2I）模型的安全问题，通过引入 Adversarial Nibbler 挑战，通过收集和分析对当前 state-of-the-art T2I 模型的攻击，来提高人们对这些问题的认识。

May, 2023

对抗性 Nibbler：一种用于识别文本到图像生成中多样化伤害的开放式红队方法

从生成图像的文本到图像（T2I）生成 AI 模型的发展中，评估模型对非明显攻击的鲁棒性至关重要。在本文中，我们通过关注 “隐式对抗” 提示（触发 T2I 模型因非明显原因生成不安全图像的提示），独立确定了一组难以发现的安全问题，而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge，一种用于众包隐式对抗提示的红队方法，我们汇集了一套最先进的 T2I 模型，并采用简单的用户界面来识别和注释伤害，与不同人群合作，以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行，以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具，方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释，其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现，人类认为有害的图像中，有 14％被机器错误标记为 “安全”。我们已经发现了新的攻击策略，凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估，并促进 T2I 模型的负责开发。

Feb, 2024

SneakyPrompt：评估文本到图像生成模型安全过滤器的鲁棒性

该研究提出了一种名为 SneakyPrompt 的自动化攻击框架，使用强化学习来生成可以绕过现有文本到图像生成模型的安全过滤器的不安全内容。实验表明，SneakyPrompt 不仅可以成功生成 NSFW 内容，而且在查询数量和图像质量方面也优于现有的对抗攻击。

May, 2023

文本图像模型的安全过滤器绕过方法

我们成功地设计并展示了对 Midjourney 的首个 prompt 攻击，从而生成大量逼真的不适宜工作场所的图像，揭示了此类攻击的基本原理，并建议通过策略性地替换可疑提示中的高风险部分来规避闭源安全措施。我们的新框架 SurrogatePrompt 可以系统地利用大型语言模型、图像到文本和图像到图像模块自动扩展攻击提示的创建。评估结果显示，在我们的攻击提示下，绕过 Midjourney 的专有安全过滤器的成功率达到 88％，导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证我们的攻击提示生成的图像存在相当大的安全风险。

Sep, 2023

针对对抗引导的 LLM 安全性认证

我们提出了第一个具有可验证安全保证的消除 - 检查（erase-and-check）框架，以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列，将输入提示标记为有害，如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御，并且在保证处理安全提示的性能的同时，显著提高了在有害提示上的安全保证指标。

Sep, 2023

Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

利用 Prompting4Debugging (P4D) 工具，我们发现了 Stable Diffusion（SD）模型中的新脆弱性，显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制，包括概念删除、负面提示和安全指导。这些发现表明，在没有全面测试的情况下，对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。

Sep, 2023

大型语言模型的强大安全分类器：对抗性提示屏蔽

大型语言模型的安全性是一个重要问题，本研究提出了 Adversarial Prompt Shield（APS）这个轻量级模型，能够有效检测和抵御对抗抓取；同时，我们还引入了自动生成对抗训练数据集的新策略，命名为 Bot Adversarial Noisy Dialogue（BAND）数据集，以提高安全分类器的鲁棒性。经过评估，我们的分类器成功率提高了 60%，为下一代更可靠和韧性更强的对话代理铺平了道路。

Oct, 2023

安全驱动的未学习扩散模型是否生成？对于现在来说，仍然易于生成不安全的图像

我们提出了一种基于对抗攻击的评估框架，用于评估安全驱动的模型在消除不需要的概念、风格和对象方面的鲁棒性，证明了我们的方法在与最先进的对抗提示方法进行对比时的效果和效率。

Oct, 2023

安全文本到图像生成的通用提示优化器

我们提出了第一个用于黑盒情况下安全 T2I 生成的通用提示优化器，通过构建毒性 - 清洁提示对数据集，设计奖励函数衡量生成图像的毒性和文本对齐度来训练优化器，实验证明我们的方法可以显著减少不当图像的生成概率，并且对文本对齐没有明显影响，同时与其他方法相结合能够取得更好的性能。

Feb, 2024

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024