使用任务向量实现鲁棒的概念消除
从文本到图像生成模型到 AI 安全的概念消除方法,这篇论文研究了五种最近提出的概念消除方法,并展示了这些方法中没有一个能完全抹除目标概念,并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回,这突显了事后概念消除方法的脆弱性,并对其在 AI 安全算法工具箱中的使用产生了质疑。
Aug, 2023
通过手术更新分类器导向项、限制无条件得分项的变化,以及赋予用户选择擦除概念的替代方案的能力,我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。
Dec, 2023
通过更新文本编码器使用少量真实图像,我们提出了一种新颖的概念擦除方法,可以在 10 秒内擦除概念,实现了比当前方法快数十到数百倍的概念擦除,隐含地过渡到相关概念,实现更自然的概念擦除。
May, 2024
我们提出了一种可分离的多概念擦除(SepME)方法,包括概念无关表示的生成和权重解耦,用于解决大规模扩散模型中的版权问题和概念恢复问题。通过其他已知不良概念计算的解决方案的线性组合,我们的方法在去除概念、保留模型性能以及灵活擦除或恢复各种概念方面具有良好的效果。
Feb, 2024
基于对比性语言图像预训练 (CLIP) 方法的 Espresso 模型,能有效去除不可接受的概念,保持可接受概念的有用性,并对抗敌对提醒,同时具有强大的鲁棒性。
Apr, 2024
通过将对抗训练 (AT) 的原则融入机器遗忘的过程,本研究提出了一种稳健遗忘框架(AdvUnlearn),以提高概念遗忘的鲁棒性。通过实验证明,在各种概念遗忘场景中,AdvUnlearn 在鲁棒性上的优势,以及与模型效用之间的平衡取得了成功。
May, 2024
我们提出了一种简单而有效的无需训练的方法,ConceptPrune,通过首先确定在预训练模型中负责生成不良概念的关键区域,从而以权重修剪的方式便捷地实现概念去学习。实验证明,我们的方法能够高效擦除多个目标概念,仅修剪总权重的约 0.12%,并对多种白盒和黑盒对抗攻击具有鲁棒性。
May, 2024
我们提出了一种新的方法,通过将可学习提示引入交叉注意力模块,从文本到图像生成模型中去除不良概念。这种可学习提示作为额外的记忆来传递不良概念的知识,并减少这些概念对模型参数和对应文本输入的依赖。通过这种知识传递,擦除这些不良概念更稳定,并对其他概念的负面影响较小。我们在稳定扩散模型上展示了我们方法的有效性,展示了它在去除不良内容同时保留其他无关元素方面的优越性。
Mar, 2024
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023