探索未学习的扩散模型：可转移的对抗攻击视角

Apr, 2024

探索未学习的扩散模型：可转移的对抗攻击视角

Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective

Xiaoxuan Han, Songlin Yang, Wei Wang, Yang Li, Jing Dong

TL;DR針對高級文字到圖像擴散模型在身份隱私侵犯、版權侵犯和不宜上班的內容生成方面引起的安全問題，本文旨在利用對抗攻擊的可轉移性來探測黑盒情景下的不學習強健性。

Abstract

Advanced text-to-image diffusion models raise safety concerns regarding identity privacy violation, copyright infringement, and Not Safe F

text-to-image diffusion models unlearning methods identity privacy violation copyright infringement adversarial embedding

发现论文，激发创造

安全驱动的未学习扩散模型是否生成？对于现在来说，仍然易于生成不安全的图像

我们提出了一种基于对抗攻击的评估框架，用于评估安全驱动的模型在消除不需要的概念、风格和对象方面的鲁棒性，证明了我们的方法在与最先进的对抗提示方法进行对比时的效果和效率。

Oct, 2023

扩散模型中鲁棒概念抹除的对抗训练防御性遗忘

通过将对抗训练 (AT) 的原则融入机器遗忘的过程，本研究提出了一种稳健遗忘框架（AdvUnlearn），以提高概念遗忘的鲁棒性。通过实验证明，在各种概念遗忘场景中，AdvUnlearn 在鲁棒性上的优势，以及与模型效用之间的平衡取得了成功。

May, 2024

面向不可察觉和可迁移对抗攻击的扩散模型

论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步 “欺骗” 扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

May, 2023

通过概念领域修正和概念保持梯度，从扩散模型中去除概念

通过对抗训练对齐敏感概念和锚定概念的输出领域，提出了一种用于扩展模型对概念擦除的概念领域校正框架，并且基于梯度修剪设计了一个能够减轻卸载梯度中与重新学习梯度相矛盾的部分的概念保留方案，从而在保留模型效用的同时解决了扩散模型中概念卸载的挑战问题。

May, 2024

扩散模型无法学习的示例：保护数据免受未经授权的利用

本文提出了一种针对 Diffusion Model 的保护图像的方法，通过生成样本特定的扰动噪声使训练数据难以被 Diffusion Model 学习，以此保护隐私和版权。

Jun, 2023

EraseDiff: 擦除传播模型中的数据影响

通过在扩散模型中引入一种取消学习算法，以解决与数据遗忘和隐私保护相关的问题。我们将取消学习问题建模为一个双层优化问题，并采用一阶方法来解决该问题，从而在保留模型效用的同时清除与忘记数据相关的信息。在实验证明我们的算法能够有效地移除两个广泛使用的扩散模型中的数据，并在条件和非条件图像生成场景中保持模型的效用、有效性和效率。

Jan, 2024

基于可转移模型嵌入的黑盒对抗攻击

本文提出了一种新的黑盒对抗攻击方法，通过使用预训练模型学习低维嵌入，然后在此嵌入空间内进行高效搜索，从而攻击未知目标网络。该方法能够生成具有高级语义模式的对抗性扰动，易于迁移，可大大提高黑盒对抗攻击的查询效率。作者在 MNIST、ImageNet 和 Google Cloud Vision API 上进行评估，并在 CIFAR10 和 ImageNet 上攻击对抗性防御网络，取得了良好的攻击效果。

Nov, 2019

黑盒对抗迁移性：一个基于网络安全的经验研究

在网络安全领域中，人工智能的快速发展引起了重大安全关注，深度学习模型在对抗性攻击中的脆弱性是主要问题之一，该研究的关键贡献是在网络攻击检测系统中经验性地测试黑盒对抗转移现象，并验证了任何深度学习模型都极易受到对抗攻击的影响，即使攻击者无法访问目标模型的内部细节，白盒对抗攻击相比黑盒对抗攻击具有更严重的影响。因此，有必要研究和探索对抗性防御技术以增强深度学习模型对对抗攻击的鲁棒性。

Apr, 2024

深度神经网络中对抗性样本的可迁移性调查

深度神经网络的关键问题之一是对抗性攻击和转移性，考虑到安全性和未来的发展，需要加强对抗性漏洞的防御。

Oct, 2023

扰乱传播：基于令牌级别的注意力删除攻击针对基于传播的定制化

本文提出了 DisDiff（Disrupting Diffusion），一种破坏扩散模型输出的新型对抗攻击方法。通过运用 Cross-Attention Erasure 模块来显式 “擦除” 指示的注意力图，并分析扩散模型的采样过程对 PGD 攻击的影响，引入了一种新颖的 Merit Sampling Scheduler 来自适应地调节扰动更新振幅。在两个面部基准和两个常用的提示场景上，我们的 DisDiff 方法在 FDFR 分数上优于现有方法 12.75％，在 ISM 分数上优于现有方法 7.25％。

May, 2024