SneakyPrompt：评估文本到图像生成模型安全过滤器的鲁棒性

May, 2023

SneakyPrompt：评估文本到图像生成模型安全过滤器的鲁棒性

SneakyPrompt: Evaluating Robustness of Text-to-image Generative Models' Safety Filters

Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao

TL;DR该研究提出了一种名为 SneakyPrompt 的自动化攻击框架，使用强化学习来生成可以绕过现有文本到图像生成模型的安全过滤器的不安全内容。实验表明，SneakyPrompt 不仅可以成功生成 NSFW 内容，而且在查询数量和图像质量方面也优于现有的对抗攻击。

Abstract

text-to-image generative models such as Stable Diffusion and DALL$\cdot$E 2 have attracted much attention since their publication due to their wide application in the real world. One challenging problem of text-to-image generative models is the generation of Not-Safe-for-Work (NSFW) co

text-to-image generative models safety filters not-safe-for-work content adversarial attacks reinforcement learning

发现论文，激发创造

文本图像模型的安全过滤器绕过方法

我们成功地设计并展示了对 Midjourney 的首个 prompt 攻击，从而生成大量逼真的不适宜工作场所的图像，揭示了此类攻击的基本原理，并建议通过策略性地替换可疑提示中的高风险部分来规避闭源安全措施。我们的新框架 SurrogatePrompt 可以系统地利用大型语言模型、图像到文本和图像到图像模块自动扩展攻击提示的创建。评估结果显示，在我们的攻击提示下，绕过 Midjourney 的专有安全过滤器的成功率达到 88％，导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证我们的攻击提示生成的图像存在相当大的安全风险。

Sep, 2023

不安全的扩散：关于从文本到图像模型生成不安全图像和令人憎恶的表情包

研究发现最新的文本到图像生成模型可能会生成危险的、令人讨厌的和恶毒的图片，为此提出了多种缓解措施。

May, 2023

Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

利用 Prompting4Debugging (P4D) 工具，我们发现了 Stable Diffusion（SD）模型中的新脆弱性，显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制，包括概念删除、负面提示和安全指导。这些发现表明，在没有全面测试的情况下，对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。

Sep, 2023

稳定扩散安全过滤器的红队测验

该研究通过反向工程分析稳定扩散算法的安全过滤器，发现该过滤器只能防止生成性内容而无法防止暴力、血腥等扰人的内容，呼吁未来算法的安全措施应该是完全开放和正确记录的。

Oct, 2022

SafeGen: 缓解文本生成图像模型的不安全内容

SafeGen 是一种抵御文本到图像模型生成不安全内容的框架，通过消除不安全的视觉表示，从而提高抵御对抗性提示的能力，并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成，超过了八种最先进的基线方法，实现了 99.1% 的性别内容去除性能。

Apr, 2024

从安全基准筛选敌对提示：关于敌对咬地机挑战的报告

文本条件的图像生成模型在图像质量和对齐性方面取得了惊人的结果，然而它们依赖于从网络随机获取的数量庞大的数据集，因此也会生成不安全的内容。作为对 Adversarial Nibbler 挑战的贡献，我们从现有的安全基准中提取了超过 1,000 个潜在对抗性输入，通过对收集到的提示和相应的图像进行分析，揭示了输入过滤器的脆弱性并进一步深入研究了当前生成图像模型中的系统安全问题。

Sep, 2023

安全隐变扩散：缓解扩散模型中的不当降解

为了解决当前依赖互联网数据随机抓取并导致人类行为退化和偏见的文本导向图像生成方法在生成图像时存在的问题，我们提出了一种名为安全潜在扩散（SLD）的图像噪声过滤方法，从而通过包含不恰当的图像提示的实际图像 - 文本提示解决了这些问题。经过详尽的实证评估表明，SLD 能够在扩散过程中去除不恰当的图像部分，不需要额外的培训，并且对图像质量或文本对齐没有负面影响。

Nov, 2022

通过有针对性的攻击揭示稳定扩散中的漏洞

本研究针对 Stable Diffusion 模型的脆弱性，提出一种生成特定图像的对抗性提示框架，并通过揭示导致模型脆弱性的机制来证明方法的有效性。

Jan, 2024

通过知识蒸馏促进开放域对话系统中 NSFW 文本的检测

研究聚焦于 NSFW 内容检测在开放域对话系统中带来的副作用，介绍了一个对话监控数据集 CensorChat，利用 GPT-4 和 ChatGPT 进行知识蒸馏，开发了一种成本效益高的 NSFW 内容检测方法，强调了在数字对话中 AI 系统优先考虑用户安全和福祉，同时尊重言论自由。

Sep, 2023

面向互联网规模文本到图像扩散模型的安全自蒸馏

本文提出了一种叫做 SDD 的方法，可以在图像生成模型中避免生成有害内容，该方法相对于之前的方法可以更彻底地除去生成图像中的有害内容，同时保持图像的整体质量，并且能够一次性去除多个概念。

Jul, 2023