Mist:面向扩散模型的改进对抗样本
本文介绍了一种基于对抗样本的算法,称为 AdvDM,用于生成能够保护画家版权的扩散模型(DMs)的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明,估计得到的对抗样本能够有效地阻止 DMs 提取其特征。
Feb, 2023
提出了一种新方法 AdvDiff,使用扩散模型生成无限制的对抗样本,并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样,实现了高质量、逼真的对抗样本生成。实验证明,AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。
Jul, 2023
提出了一种将个人水印嵌入敌对实例生成中的新框架,以生成具有可见水印的图像,防止敌对模型模仿未授权图像,并在各种条件图像生成场景进行广泛实验,证明了敌对实例具有良好的传递性,从而提供了一种保护基于扩散模型的版权的简单而有效的方法。
Apr, 2024
引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同,欺骗扩散模型可以创建任意数量的新的、被错误分类的图像,这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法,包括在其他情况下难以找到的错误分类类型。在我们的实验中,我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞:如果攻击者能够秘密地污染部分训练数据,那么生成的扩散模型将产生相似比例的误导输出。
Jun, 2024
传统的迁移攻击成本高,噪音明显且对防御方法难以有效回避。本文通过生成自然、非受限的对抗样本,提出了 AdvDiffVLM 方法,利用扩散模型和自适应集成梯度估计改善了传统方法的缺陷,并通过 GradCAM-guided Mask 方法提高了样本质量。实验结果显示,我们的方法在速度上比现有方法快 10 倍至 30 倍,并保持了超强的对抗样本质量。此外,生成的对抗样本在攻击上具有强大的迁移性,并对对抗性防御方法表现出增强的抗性。值得注意的是,AdvDiffVLM 可以以黑盒方式成功攻击商业化的大型视觉语言模型,包括 GPT-4V。
Apr, 2024
论文介绍一种新型的对抗攻击方法 DiffAttack,该方法利用扩散模型的生成和判别能力,在隐空间中生成人类感知不到的、带有语义线索的扰动,并采用内容保持结构。考虑到攻击的传递性,DiffAttack 进一步 “欺骗” 扩散模型,以分散其注意力,达到更好的转移性能,实验结果表明,DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。
May, 2023
该研究探讨了使用 Stable Diffusion 生成的数据来增强对抗攻击的传递性,提出了一种基于 Stable Diffusion 的新型攻击方法,并提供了一个快速变体,通过实验证明该方法在对抗性传递性方面优于现有方法,并且与现有的基于传递的攻击方法相兼容。
Nov, 2023