一维适配器:概念、扩散模型和擦除应用
通过手术更新分类器导向项、限制无条件得分项的变化,以及赋予用户选择擦除概念的替代方案的能力,我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。
Dec, 2023
通过更新文本编码器使用少量真实图像,我们提出了一种新颖的概念擦除方法,可以在 10 秒内擦除概念,实现了比当前方法快数十到数百倍的概念擦除,隐含地过渡到相关概念,实现更自然的概念擦除。
May, 2024
我们提出了一种可分离的多概念擦除(SepME)方法,包括概念无关表示的生成和权重解耦,用于解决大规模扩散模型中的版权问题和概念恢复问题。通过其他已知不良概念计算的解决方案的线性组合,我们的方法在去除概念、保留模型性能以及灵活擦除或恢复各种概念方面具有良好的效果。
Feb, 2024
从文本到图像生成模型到 AI 安全的概念消除方法,这篇论文研究了五种最近提出的概念消除方法,并展示了这些方法中没有一个能完全抹除目标概念,并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回,这突显了事后概念消除方法的脆弱性,并对其在 AI 安全算法工具箱中的使用产生了质疑。
Aug, 2023
通过将对抗训练 (AT) 的原则融入机器遗忘的过程,本研究提出了一种稳健遗忘框架(AdvUnlearn),以提高概念遗忘的鲁棒性。通过实验证明,在各种概念遗忘场景中,AdvUnlearn 在鲁棒性上的优势,以及与模型效用之间的平衡取得了成功。
May, 2024
通过个性化数据集对扩散模型进行微调是一种被认可的方法,可以在下游任务中提高生成质量,然而,这种方法常常会无意中生成水印和 QR 码等意外概念,这是由于特定下游任务中图像来源和收集方法的限制所引起的。我们提出了一种新方法,即 methodname,通过额外的可访问分类器或检测器模型将这些概念的几何信息编码到文本域中,以成功消除隐含概念。此外,我们提出了一种新的图像 - 文本数据集,其中包含三个隐含概念(水印、QR 码和文字),用于训练和评估。实验结果表明,methodname 不仅能够识别隐含概念,还能有效消除它们,相比现有方法有了显著的改进。几何信息的整合在扩散模型中准确去除隐含概念方面取得了重要进展。
Oct, 2023
通过使用轻量级橡皮擦实现可靠的概念消除,本研究提出了 Receler;通过提出的概念本地化正则化和对抗性提示学习,增强了局部性和鲁棒性;与之前的擦除方法相比,通过各种概念提示进行了全面的定量和定性实验证实了 Receler 的优越性。
Nov, 2023
通过引入新数据集 Six-CD 和新评估指标,我们对文本到图像扩散模型中的概念去除方法进行了细致评估,并提供了有价值的观察和讨论。
Jun, 2024
通过对抗训练对齐敏感概念和锚定概念的输出领域,提出了一种用于扩展模型对概念擦除的概念领域校正框架,并且基于梯度修剪设计了一个能够减轻卸载梯度中与重新学习梯度相矛盾的部分的概念保留方案,从而在保留模型效用的同时解决了扩散模型中概念卸载的挑战问题。
May, 2024