绕过文本到图像生成模型的概念消除方法

Aug, 2023

绕过文本到图像生成模型的概念消除方法

Circumventing Concept Erasure Methods For Text-to-Image Generative Models

Minh Pham, Kelly O. Marshall, Chinmay Hegde

TL;DR从文本到图像生成模型到 AI 安全的概念消除方法，这篇论文研究了五种最近提出的概念消除方法，并展示了这些方法中没有一个能完全抹除目标概念，并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回，这突显了事后概念消除方法的脆弱性，并对其在 AI 安全算法工具箱中的使用产生了质疑。

Abstract

text-to-image generative models can produce photo-realistic images for an extremely broad range of concepts, and their usage has proliferated widely among the general public. On the flip side, these models have n

text-to-image generative models concept erasure methods photo-realistic images sexually explicit content ai safety

发现论文，激发创造

用少样本反学习从文本到图像扩散模型中消除概念

通过更新文本编码器使用少量真实图像，我们提出了一种新颖的概念擦除方法，可以在 10 秒内擦除概念，实现了比当前方法快数十到数百倍的概念擦除，隐含地过渡到相关概念，实现更自然的概念擦除。

May, 2024

只保留模型的手术概念擦除在文本到图像扩散模型中

通过手术更新分类器导向项、限制无条件得分项的变化，以及赋予用户选择擦除概念的替代方案的能力，我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。

Dec, 2023

扩散模型中的强鲁棒概念擦除修剪

通过选择性修剪与要移除的概念相关的关键参数，改进了概念擦除技术的稳健性，并通过抵抗对抗性输入的实验结果证明了显著改进

May, 2024

利用可学习的提示在文本到图像生成模型中去除不需要的概念

我们提出了一种新的方法，通过将可学习提示引入交叉注意力模块，从文本到图像生成模型中去除不良概念。这种可学习提示作为额外的记忆来传递不良概念的知识，并减少这些概念对模型参数和对应文本输入的依赖。通过这种知识传递，擦除这些不良概念更稳定，并对其他概念的负面影响较小。我们在稳定扩散模型上展示了我们方法的有效性，展示了它在去除不良内容同时保留其他无关元素方面的优越性。

Mar, 2024

使用任务向量实现鲁棒的概念消除

使用多样逆转的方法，在文本图像模型中实施概念擦除，提供更鲁棒的编辑性能，并且在增强擦除功能的同时更好地保持模型的核心功能。

Apr, 2024

几何消除：基于几何的扩散模型中隐含概念的去除

通过个性化数据集对扩散模型进行微调是一种被认可的方法，可以在下游任务中提高生成质量，然而，这种方法常常会无意中生成水印和 QR 码等意外概念，这是由于特定下游任务中图像来源和收集方法的限制所引起的。我们提出了一种新方法，即 methodname，通过额外的可访问分类器或检测器模型将这些概念的几何信息编码到文本域中，以成功消除隐含概念。此外，我们提出了一种新的图像 - 文本数据集，其中包含三个隐含概念（水印、QR 码和文字），用于训练和评估。实验结果表明，methodname 不仅能够识别隐含概念，还能有效消除它们，相比现有方法有了显著的改进。几何信息的整合在扩散模型中准确去除隐含概念方面取得了重要进展。

Oct, 2023

ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

我们提出了一种简单而有效的无需训练的方法，ConceptPrune，通过首先确定在预训练模型中负责生成不良概念的关键区域，从而以权重修剪的方式便捷地实现概念去学习。实验证明，我们的方法能够高效擦除多个目标概念，仅修剪总权重的约 0.12%，并对多种白盒和黑盒对抗攻击具有鲁棒性。

May, 2024

文本倒装用于概念审查的后门技术

通过在 Textual Inversion 嵌入式中注入后门技术，实现概念审查，以防止个人化技术被恶意用户滥用。

Aug, 2023

Receler: 轻量级擦除工具下文图异质扩散模型的可靠概念擦除

通过使用轻量级橡皮擦实现可靠的概念消除，本研究提出了 Receler；通过提出的概念本地化正则化和对抗性提示学习，增强了局部性和鲁棒性；与之前的擦除方法相比，通过各种概念提示进行了全面的定量和定性实验证实了 Receler 的优越性。

Nov, 2023

扩散模型中的可分离多概念擦除

我们提出了一种可分离的多概念擦除（SepME）方法，包括概念无关表示的生成和权重解耦，用于解决大规模扩散模型中的版权问题和概念恢复问题。通过其他已知不良概念计算的解决方案的线性组合，我们的方法在去除概念、保留模型性能以及灵活擦除或恢复各种概念方面具有良好的效果。

Feb, 2024