使用任务向量实现鲁棒的概念消除

Apr, 2024

使用任务向量实现鲁棒的概念消除

Robust Concept Erasure Using Task Vectors

Minh Pham, Kelly O. Marshall, Chinmay Hegde, Niv Cohen

TL;DR使用多样逆转的方法，在文本图像模型中实施概念擦除，提供更鲁棒的编辑性能，并且在增强擦除功能的同时更好地保持模型的核心功能。

Abstract

With the rapid growth of text-to-image models, a variety of techniques have been suggested to prevent undesirable image generations. Yet, these methods often only protect against specific user prompts and have been shown to allow unsafe generations with other inputs. Here we focus on u

text-to-image models concept erasure task vectors diverse inversion model weights

发现论文，激发创造

绕过文本到图像生成模型的概念消除方法

从文本到图像生成模型到 AI 安全的概念消除方法，这篇论文研究了五种最近提出的概念消除方法，并展示了这些方法中没有一个能完全抹除目标概念，并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回，这突显了事后概念消除方法的脆弱性，并对其在 AI 安全算法工具箱中的使用产生了质疑。

Aug, 2023

只保留模型的手术概念擦除在文本到图像扩散模型中

通过手术更新分类器导向项、限制无条件得分项的变化，以及赋予用户选择擦除概念的替代方案的能力，我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。

Dec, 2023

用少样本反学习从文本到图像扩散模型中消除概念

通过更新文本编码器使用少量真实图像，我们提出了一种新颖的概念擦除方法，可以在 10 秒内擦除概念，实现了比当前方法快数十到数百倍的概念擦除，隐含地过渡到相关概念，实现更自然的概念擦除。

May, 2024

扩散模型中的可分离多概念擦除

我们提出了一种可分离的多概念擦除（SepME）方法，包括概念无关表示的生成和权重解耦，用于解决大规模扩散模型中的版权问题和概念恢复问题。通过其他已知不良概念计算的解决方案的线性组合，我们的方法在去除概念、保留模型性能以及灵活擦除或恢复各种概念方面具有良好的效果。

Feb, 2024

扩散模型中的强鲁棒概念擦除修剪

通过选择性修剪与要移除的概念相关的关键参数，改进了概念擦除技术的稳健性，并通过抵抗对抗性输入的实验结果证明了显著改进

May, 2024

Espresso：文本到图像模型中的鲁棒概念过滤

基于对比性语言图像预训练 (CLIP) 方法的 Espresso 模型，能有效去除不可接受的概念，保持可接受概念的有用性，并对抗敌对提醒，同时具有强大的鲁棒性。

Apr, 2024

扩散模型中鲁棒概念抹除的对抗训练防御性遗忘

通过将对抗训练 (AT) 的原则融入机器遗忘的过程，本研究提出了一种稳健遗忘框架（AdvUnlearn），以提高概念遗忘的鲁棒性。通过实验证明，在各种概念遗忘场景中，AdvUnlearn 在鲁棒性上的优势，以及与模型效用之间的平衡取得了成功。

May, 2024

ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

我们提出了一种简单而有效的无需训练的方法，ConceptPrune，通过首先确定在预训练模型中负责生成不良概念的关键区域，从而以权重修剪的方式便捷地实现概念去学习。实验证明，我们的方法能够高效擦除多个目标概念，仅修剪总权重的约 0.12%，并对多种白盒和黑盒对抗攻击具有鲁棒性。

May, 2024

利用可学习的提示在文本到图像生成模型中去除不需要的概念

我们提出了一种新的方法，通过将可学习提示引入交叉注意力模块，从文本到图像生成模型中去除不良概念。这种可学习提示作为额外的记忆来传递不良概念的知识，并减少这些概念对模型参数和对应文本输入的依赖。通过这种知识传递，擦除这些不良概念更稳定，并对其他概念的负面影响较小。我们在稳定扩散模型上展示了我们方法的有效性，展示了它在去除不良内容同时保留其他无关元素方面的优越性。

Mar, 2024

多概念 T2I-Zero：仅调整文本嵌入，不涉及其他部分

通过对预训练文本到图像扩散模型中的文本嵌入进行微调，我们设计了一种低成本的解决方案，实现自然多概念文本到图像生成，并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献，并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合，从而在文本到图像、图像操作和个性化任务中优于以前的方法。

Oct, 2023