用少样本反学习从文本到图像扩散模型中消除概念

May, 2024

用少样本反学习从文本到图像扩散模型中消除概念

Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning

Masane Fuchi, Tomohiro Takagi

TL;DR通过更新文本编码器使用少量真实图像，我们提出了一种新颖的概念擦除方法，可以在 10 秒内擦除概念，实现了比当前方法快数十到数百倍的概念擦除，隐含地过渡到相关概念，实现更自然的概念擦除。

Abstract

generating images from text has become easier because of the scaling of diffusion models and advancements in the field of vision and language. These models are trained using vast amounts of data from the Internet. Hence, they often contain undesirable content such as copyrighted materi

generating images from text scaling of diffusion models advancements in vision and language concept-erasure method few-shot unlearning

发现论文，激发创造

绕过文本到图像生成模型的概念消除方法

从文本到图像生成模型到 AI 安全的概念消除方法，这篇论文研究了五种最近提出的概念消除方法，并展示了这些方法中没有一个能完全抹除目标概念，并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回，这突显了事后概念消除方法的脆弱性，并对其在 AI 安全算法工具箱中的使用产生了质疑。

Aug, 2023

只保留模型的手术概念擦除在文本到图像扩散模型中

通过手术更新分类器导向项、限制无条件得分项的变化，以及赋予用户选择擦除概念的替代方案的能力，我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。

Dec, 2023

ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

我们提出了一种简单而有效的无需训练的方法，ConceptPrune，通过首先确定在预训练模型中负责生成不良概念的关键区域，从而以权重修剪的方式便捷地实现概念去学习。实验证明，我们的方法能够高效擦除多个目标概念，仅修剪总权重的约 0.12%，并对多种白盒和黑盒对抗攻击具有鲁棒性。

May, 2024

通过概念领域修正和概念保持梯度，从扩散模型中去除概念

通过对抗训练对齐敏感概念和锚定概念的输出领域，提出了一种用于扩展模型对概念擦除的概念领域校正框架，并且基于梯度修剪设计了一个能够减轻卸载梯度中与重新学习梯度相矛盾的部分的概念保留方案，从而在保留模型效用的同时解决了扩散模型中概念卸载的挑战问题。

May, 2024

扩散模型中的强鲁棒概念擦除修剪

通过选择性修剪与要移除的概念相关的关键参数，改进了概念擦除技术的稳健性，并通过抵抗对抗性输入的实验结果证明了显著改进

May, 2024

利用可学习的提示在文本到图像生成模型中去除不需要的概念

我们提出了一种新的方法，通过将可学习提示引入交叉注意力模块，从文本到图像生成模型中去除不良概念。这种可学习提示作为额外的记忆来传递不良概念的知识，并减少这些概念对模型参数和对应文本输入的依赖。通过这种知识传递，擦除这些不良概念更稳定，并对其他概念的负面影响较小。我们在稳定扩散模型上展示了我们方法的有效性，展示了它在去除不良内容同时保留其他无关元素方面的优越性。

Mar, 2024

扩散模型中鲁棒概念抹除的对抗训练防御性遗忘

通过将对抗训练 (AT) 的原则融入机器遗忘的过程，本研究提出了一种稳健遗忘框架（AdvUnlearn），以提高概念遗忘的鲁棒性。通过实验证明，在各种概念遗忘场景中，AdvUnlearn 在鲁棒性上的优势，以及与模型效用之间的平衡取得了成功。

May, 2024

扩散模型中的可分离多概念擦除

我们提出了一种可分离的多概念擦除（SepME）方法，包括概念无关表示的生成和权重解耦，用于解决大规模扩散模型中的版权问题和概念恢复问题。通过其他已知不良概念计算的解决方案的线性组合，我们的方法在去除概念、保留模型性能以及灵活擦除或恢复各种概念方面具有良好的效果。

Feb, 2024

一维适配器：概念、扩散模型和擦除应用

通过基于一维适配器的擦除框架和新颖的潜在锚定微调策略，实现了对大多数扩散模型进行多概念擦除的无侵入、精确、可定制和可传输的消除。

Dec, 2023

几何消除：基于几何的扩散模型中隐含概念的去除

通过个性化数据集对扩散模型进行微调是一种被认可的方法，可以在下游任务中提高生成质量，然而，这种方法常常会无意中生成水印和 QR 码等意外概念，这是由于特定下游任务中图像来源和收集方法的限制所引起的。我们提出了一种新方法，即 methodname，通过额外的可访问分类器或检测器模型将这些概念的几何信息编码到文本域中，以成功消除隐含概念。此外，我们提出了一种新的图像 - 文本数据集，其中包含三个隐含概念（水印、QR 码和文字），用于训练和评估。实验结果表明，methodname 不仅能够识别隐含概念，还能有效消除它们，相比现有方法有了显著的改进。几何信息的整合在扩散模型中准确去除隐含概念方面取得了重要进展。

Oct, 2023