不安全的扩散：关于从文本到图像模型生成不安全图像和令人憎恶的表情包

MMMay, 2023

不安全的扩散：关于从文本到图像模型生成不安全图像和令人憎恶的表情包

Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models

Yiting Qu, Xinyue Shen, Xinlei He, Michael Backes, Savvas Zannettou...

TL;DR研究发现最新的文本到图像生成模型可能会生成危险的、令人讨厌的和恶毒的图片，为此提出了多种缓解措施。

Abstract

State-of-the-art text-to-image models like Stable Diffusion and DALLE$\cdot$2 are revolutionizing how people generate visual content. At the same time, society has serious concerns about how adversaries can exploit such models to generate →

text-to-image models unsafe images hateful memes generation mitigating measures

发现论文，激发创造

面向互联网规模文本到图像扩散模型的安全自蒸馏

本文提出了一种叫做 SDD 的方法，可以在图像生成模型中避免生成有害内容，该方法相对于之前的方法可以更彻底地除去生成图像中的有害内容，同时保持图像的整体质量，并且能够一次性去除多个概念。

Jul, 2023

通过有针对性的攻击揭示稳定扩散中的漏洞

本研究针对 Stable Diffusion 模型的脆弱性，提出一种生成特定图像的对抗性提示框架，并通过揭示导致模型脆弱性的机制来证明方法的有效性。

Jan, 2024

SafeGen: 缓解文本生成图像模型的不安全内容

SafeGen 是一种抵御文本到图像模型生成不安全内容的框架，通过消除不安全的视觉表示，从而提高抵御对抗性提示的能力，并在保留良性图像的高保真度的同时有效地抑制不安全内容的生成，超过了八种最先进的基线方法，实现了 99.1% 的性别内容去除性能。

Apr, 2024

SneakyPrompt：评估文本到图像生成模型安全过滤器的鲁棒性

该研究提出了一种名为 SneakyPrompt 的自动化攻击框架，使用强化学习来生成可以绕过现有文本到图像生成模型的安全过滤器的不安全内容。实验表明，SneakyPrompt 不仅可以成功生成 NSFW 内容，而且在查询数量和图像质量方面也优于现有的对抗攻击。

May, 2023

安全隐变扩散：缓解扩散模型中的不当降解

为了解决当前依赖互联网数据随机抓取并导致人类行为退化和偏见的文本导向图像生成方法在生成图像时存在的问题，我们提出了一种名为安全潜在扩散（SLD）的图像噪声过滤方法，从而通过包含不恰当的图像提示的实际图像 - 文本提示解决了这些问题。经过详尽的实证评估表明，SLD 能够在扩散过程中去除不恰当的图像部分，不需要额外的培训，并且对图像质量或文本对齐没有负面影响。

Nov, 2022

MMA-Diffusion：多模态对抗扩散模型

近年来，文本到图像（T2I）模型取得了显著进展并广泛应用，然而这一进展无意中开辟了潜在的滥用途径，尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion，这是一个对 T2I 模型安全性构成严重和真实威胁的框架，通过有效绕过开源模型和商业在线服务的当前防御措施。与以往的方法不同，MMA-Diffusion 利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施，从而揭示现有防御机制的弱点。

Nov, 2023

稳定扩散安全过滤器的红队测验

该研究通过反向工程分析稳定扩散算法的安全过滤器，发现该过滤器只能防止生成性内容而无法防止暴力、血腥等扰人的内容，呼吁未来算法的安全措施应该是完全开放和正确记录的。

Oct, 2022

文本图像指导的扩散模型用于生成深度伪造的名人互动

通过改进扩散模型以生成可控高质量的深度伪造图像，并使用 Dreambooth 训练提供更真实和个性化的输出图像，该研究展示了以惊人的逼真度创建虚假的视觉内容，并可作为权力政治人物会面的可信证据。

Sep, 2023

EmoAttack: 情感对图像传播模型用于情感后门生成

使用情感文本触发恶意负面内容生成图像的基于文本到图像扩散模型的情感感知背门攻击（EmoAttack）及其解决方法 EmoBooth。

Jun, 2024

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023