R.A.C.E.：强健的对抗概念擦除用于安全的文本到图像扩散模型

May, 2024

R.A.C.E.：强健的对抗概念擦除用于安全的文本到图像扩散模型

R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model

Changhoon Kim, Kyle Min, Yezhou Yang

TL;DR为应对生成敏感内容的风险，本研究提出了一种新方法 Robust Adversarial Concept Erase (RACE)，通过增强概念抹除方法的鲁棒性，显著降低了对抗性文本嵌入的攻击成功率，成功减少了 “裸露” 概念攻击的 ASR 攻击率 30 个百分点，并在对抗白盒与黑盒攻击中展现了有效性，为保护文本到图像扩散模型免受生成不当或误导性图像的需求提供了明显进展，并强调了积极防御措施在适应快速发展的对抗性挑战领域中的重要性。

Abstract

In the evolving landscape of text-to-image (T2I) diffusion models, the remarkable capability to generate high-quality images from textual descriptions faces challenges with the potential misuse of reproducing sensitive content. To address this critical issue, we introduce →

text-to-image robust adversarial concept erase adversarial training framework attack success rate proactive defense measures

发现论文，激发创造

扩散模型中的大规模概念抹除

MACE 是一种用于大规模文本到图像扩散模型的微调框架，旨在通过消除不想要的概念来防止模型生成具有有害或误导性内容的图像，并通过使用多个 LoRA 相互干扰的方式，在处理多个概念时取得了广泛的成功。

Mar, 2024

绕过文本到图像生成模型的概念消除方法

从文本到图像生成模型到 AI 安全的概念消除方法，这篇论文研究了五种最近提出的概念消除方法，并展示了这些方法中没有一个能完全抹除目标概念，并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回，这突显了事后概念消除方法的脆弱性，并对其在 AI 安全算法工具箱中的使用产生了质疑。

Aug, 2023

扩散模型中鲁棒概念抹除的对抗训练防御性遗忘

通过将对抗训练 (AT) 的原则融入机器遗忘的过程，本研究提出了一种稳健遗忘框架（AdvUnlearn），以提高概念遗忘的鲁棒性。通过实验证明，在各种概念遗忘场景中，AdvUnlearn 在鲁棒性上的优势，以及与模型效用之间的平衡取得了成功。

May, 2024

六 - CD：用于良性文本图像扩散模型概念去除的基准测试

通过引入新数据集 Six-CD 和新评估指标，我们对文本到图像扩散模型中的概念去除方法进行了细致评估，并提供了有价值的观察和讨论。

Jun, 2024

机器阅读理解模型鲁棒性基准测试

本文提出了一个新的基准数据集 AdvRACE，用于测试机器阅读理解模型在模拟的并非完全准确的测试环境下的鲁棒性，通过提供不同类型的对抗攻击测试，包括基于新的分散干扰的抽取和生成攻击，并表明现有的最先进模型都非常容易受到这些攻击的影响。

Apr, 2020

只保留模型的手术概念擦除在文本到图像扩散模型中

通过手术更新分类器导向项、限制无条件得分项的变化，以及赋予用户选择擦除概念的替代方案的能力，我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。

Dec, 2023

通过对比学习和自编码器来改善基于梯度的文本分类对抗训练

本文提出了两种新的对抗训练方法：一种是在表示空间中缩小原始样本和其对抗样本的距离，同时扩大其与不同标记样本的距离；另一种是将模型迫使在对抗性表示下重构原始样本，实验证明这两种方法在各种文本分类数据集上优于强基线。分析实验证明，我们的方法可以有效提高模型的抗打击能力，同时不显著影响输入句子的语义表示。

Sep, 2021

EMBRACE: 评估和修改以提升 RACE

本文针对英语的机器阅读理解中的 RACE 数据集进行了详细的测试和分析，评估了数据集中多项选择问题的难度，并对基准文本做了注释。研究发现多数多项选择问题未能满足阅读理解任务的基本要求，同时发现基准文本的位置分布存在偏差，这可能对多项选择问题的回答和生成模型的评估造成不利影响。

May, 2023

Receler: 轻量级擦除工具下文图异质扩散模型的可靠概念擦除

通过使用轻量级橡皮擦实现可靠的概念消除，本研究提出了 Receler；通过提出的概念本地化正则化和对抗性提示学习，增强了局部性和鲁棒性；与之前的擦除方法相比，通过各种概念提示进行了全面的定量和定性实验证实了 Receler 的优越性。

Nov, 2023

扩散模型中的强鲁棒概念擦除修剪

通过选择性修剪与要移除的概念相关的关键参数，改进了概念擦除技术的稳健性，并通过抵抗对抗性输入的实验结果证明了显著改进

May, 2024