对抗性 Nibbler：一种用于识别文本到图像生成中多样化伤害的开放式红队方法

Feb, 2024

对抗性 Nibbler：一种用于识别文本到图像生成中多样化伤害的开放式红队方法

Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation

Jessica Quaye, Alicia Parrish, Oana Inel, Charvi Rastogi, Hannah Rose Kirk...

TL;DR从生成图像的文本到图像（T2I）生成 AI 模型的发展中，评估模型对非明显攻击的鲁棒性至关重要。在本文中，我们通过关注 “隐式对抗” 提示（触发 T2I 模型因非明显原因生成不安全图像的提示），独立确定了一组难以发现的安全问题，而人类创造力很适合揭示这些问题。通过构建 Adversarial Nibbler Challenge，一种用于众包隐式对抗提示的红队方法，我们汇集了一套最先进的 T2I 模型，并采用简单的用户界面来识别和注释伤害，与不同人群合作，以捕捉在标准测试中可能被忽视的长尾安全问题。挑战以连续轮次进行，以便在 T2I 模型的安全隐患的发现和分析中持续进行。本文详细介绍了我们的方法、对新攻击策略的系统性研究以及挑战参与者揭示的安全故障的讨论。我们还发布了一个伴随的可视化工具，方便从数据集中探索和得出洞察。第一轮挑战结果得到了超过 10,000 个提示 - 图像对的安全机器注释，其中 1,500 个样本的注释包含丰富的人工伤害类型和攻击风格。我们发现，人类认为有害的图像中，有 14％被机器错误标记为 “安全”。我们已经发现了新的攻击策略，凸显了确保 T2I 模型的鲁棒性的复杂性。我们的研究结果强调了对新漏洞的持续审核和适应性的必要性。我们相信这项工作将促进积极的、迭代性的安全评估，并促进 T2I 模型的负责开发。

Abstract

With the rise of text-to-image (T2I) generative AI models reaching wide audiences, it is critical to evaluate model robustness against non-obvious attacks to mitigate the generation of offensive images. By focusing on ``implicitly adversarial'' prompts (those that trigger T2I models to generate unsafe images for non-obvious reasons), we isolate a set of diff

text-to-image generative ai models implicitly adversarial prompts safety issues adversarial nibbler challenge t2i model robustness

发现论文，激发创造

对抗性 Nibbler：一个以数据为中心的挑战，用于提高文本到图像模型的安全性

该研究旨在解决文本到图像（text-to-image，T2I）模型的安全问题，通过引入 Adversarial Nibbler 挑战，通过收集和分析对当前 state-of-the-art T2I 模型的攻击，来提高人们对这些问题的认识。

May, 2023

从安全基准筛选敌对提示：关于敌对咬地机挑战的报告

文本条件的图像生成模型在图像质量和对齐性方面取得了惊人的结果，然而它们依赖于从网络随机获取的数量庞大的数据集，因此也会生成不安全的内容。作为对 Adversarial Nibbler 挑战的贡献，我们从现有的安全基准中提取了超过 1,000 个潜在对抗性输入，通过对收集到的提示和相应的图像进行分析，揭示了输入过滤器的脆弱性并进一步深入研究了当前生成图像模型中的系统安全问题。

Sep, 2023

GuardT2I：保护文本到图像模型免受对抗性提示攻击

通过使用生成方法增强文本到图像模型的鲁棒性，GuardT2I 框架在对抗性场景下显著优于 OpenAI-Moderation 和 Microsoft Azure Moderator 等商业解决方案。

Mar, 2024

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为 ART 的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024

Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

利用 Prompting4Debugging (P4D) 工具，我们发现了 Stable Diffusion（SD）模型中的新脆弱性，显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制，包括概念删除、负面提示和安全指导。这些发现表明，在没有全面测试的情况下，对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。

Sep, 2023

文本到图像模型中的危害放大

我们的研究论文使用形式化定义 “harm amplification”，并开发了量化伤害扩大的方法，旨在解决 Text-to-image 模型中的安全问题，并在实际部署场景中检验了不同方法的效果，包括伤害扩大对不同性别的差异影响。

Feb, 2024

FLIRT: 反馈回路内上下文的红队作战

通过提出一种自动红队框架，我们展示了如何评估给定模型并暴露其对不安全和不适当内容生成的漏洞，并通过上下文学习和不同攻击策略来自动学习对图像生成模型有效多样的对抗提示。我们的实验证明，与基线方法相比，我们提出的策略在暴露 Stable Diffusion（SD）模型的漏洞方面效果明显更好，即使后者已经增强了安全功能。此外，我们还展示了该框架对文本生成模型的红队效果，相较于以前报道的数据，显著提高了生成有害响应的概率。

Aug, 2023

安全文本到图像生成的通用提示优化器

我们提出了第一个用于黑盒情况下安全 T2I 生成的通用提示优化器，通过构建毒性 - 清洁提示对数据集，设计奖励函数衡量生成图像的毒性和文本对齐度来训练优化器，实验证明我们的方法可以显著减少不当图像的生成概率，并且对文本对齐没有明显影响，同时与其他方法相结合能够取得更好的性能。

Feb, 2024

文本到图像生成中的非对称偏差与对抗攻击

对文本到图像模型中的对抗攻击进行了实证研究，发现了攻击成功率的相关因素，提出了实体替换的新攻击目标，分析了对抗攻击的指标，以及成功概率高和低的条件。

Dec, 2023

评估文本到图像扩散模型对真实攻击的鲁棒性

本研究对文本到图像扩散模型进行了鲁棒性评估，考虑到实际应用中可能存在的各种语义一致但现实错误的攻击方式，揭示了该模型的鲁棒性问题。

Jun, 2023