安全驱动的未学习扩散模型是否生成？对于现在来说，仍然易于生成不安全的图像

Oct, 2023

安全驱动的未学习扩散模型是否生成？对于现在来说，仍然易于生成不安全的图像

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang...

TL;DR我们提出了一种基于对抗攻击的评估框架，用于评估安全驱动的模型在消除不需要的概念、风格和对象方面的鲁棒性，证明了我们的方法在与最先进的对抗提示方法进行对比时的效果和效率。

Abstract

The recent advances in diffusion models (DMs) have revolutionized the generation of complex and diverse images. However, these models also introduce potential safety hazards, such as the production of harmful content and infringement of data copyrights. Although there have been efforts

diffusion models safety-driven unlearning methods adversarial attacks trustworthiness evaluation adversarial learning approach

发现论文，激发创造

探索未学习的扩散模型：可转移的对抗攻击视角

針對高級文字到圖像擴散模型在身份隱私侵犯、版權侵犯和不宜上班的內容生成方面引起的安全問題，本文旨在利用對抗攻擊的可轉移性來探測黑盒情景下的不學習強健性。

Apr, 2024

扩散模型中鲁棒概念抹除的对抗训练防御性遗忘

通过将对抗训练 (AT) 的原则融入机器遗忘的过程，本研究提出了一种稳健遗忘框架（AdvUnlearn），以提高概念遗忘的鲁棒性。通过实验证明，在各种概念遗忘场景中，AdvUnlearn 在鲁棒性上的优势，以及与模型效用之间的平衡取得了成功。

May, 2024

扩散模型无法学习的示例：保护数据免受未经授权的利用

本文提出了一种针对 Diffusion Model 的保护图像的方法，通过生成样本特定的扰动噪声使训练数据难以被 Diffusion Model 学习，以此保护隐私和版权。

Jun, 2023

UnlearnCanvas：用于扩展模型传递性能基准的风格化图像数据集

机器遗忘是一种解决扩散模型中存在的问题的新方法，通过改进评估指标和引入新的数据集，我们揭示了机器遗忘方法的优缺点和潜在机制，并推断了 UnlearnCanvas 数据集在评估生成模型任务方面的潜力。

Feb, 2024

对抗样本的良性应用：通过对抗样本防止扩散模型模仿绘画

本文介绍了一种基于对抗样本的算法，称为 AdvDM，用于生成能够保护画家版权的扩散模型（DMs）的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明，估计得到的对抗样本能够有效地阻止 DMs 提取其特征。

Feb, 2023

生成对抗网络去学习

通过引入替代机制和定义虚假标签，本研究提出了一种级联取消学习方法，以在生成对抗网络中实现项目取消学习和类别取消学习，通过对 MNIST 和 CIFAR-10 数据集的综合评估，实验证明该方法在项目和类别取消学习效率方面显著提高，与从头开始重新训练相比，所需时间分别减少了最多 185 倍和 284 倍，值得注意的是，虽然模型的性能在取消学习后有轻微下降，但在处理少量图像（例如 64 张）时，该下降是可以忽略的，并且对分类等下游任务没有不良影响。

Aug, 2023

通过概念领域修正和概念保持梯度，从扩散模型中去除概念

通过对抗训练对齐敏感概念和锚定概念的输出领域，提出了一种用于扩展模型对概念擦除的概念领域校正框架，并且基于梯度修剪设计了一个能够减轻卸载梯度中与重新学习梯度相矛盾的部分的概念保留方案，从而在保留模型效用的同时解决了扩散模型中概念卸载的挑战问题。

May, 2024

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

使用扩散模型进行受控训练数据生成

这项研究提出了一种利用反馈机制来控制文本到图像生成模型，以生成对监督学习特别有用的训练数据的方法，并且通过引入指导目标分布的反馈机制，演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。

Mar, 2024

面向互联网规模文本到图像扩散模型的安全自蒸馏

本文提出了一种叫做 SDD 的方法，可以在图像生成模型中避免生成有害内容，该方法相对于之前的方法可以更彻底地除去生成图像中的有害内容，同时保持图像的整体质量，并且能够一次性去除多个概念。

Jul, 2023