Mist：面向扩散模型的改进对抗样本

May, 2023

Mist：面向扩散模型的改进对抗样本

Mist: Towards Improved Adversarial Examples for Diffusion Models

Chumeng Liang, Xiaoyu Wu

TL;DR本文研究了扩散模型对于人工智能生成内容，特别是艺术创作的成功，并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。

Abstract

diffusion models (DMs) have empowered great success in artificial-intelligence-generated content, especially in artwork creation, yet raising new concerns in intellectual properties and →

diffusion models artificial-intelligence-generated content copyright adversarial examples transferability

发现论文，激发创造

对抗样本的良性应用：通过对抗样本防止扩散模型模仿绘画

本文介绍了一种基于对抗样本的算法，称为 AdvDM，用于生成能够保护画家版权的扩散模型（DMs）的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明，估计得到的对抗样本能够有效地阻止 DMs 提取其特征。

Feb, 2023

对抗性样本在扩散模型流形中不一致

通过扩散模型检测和分析攻击引入的图像异常，结果表明攻击实例与扩散模型的学习流形不一致。

Jan, 2024

AdvDiff：使用扩散模型生成无限制的对抗样本

提出了一种新方法 AdvDiff，使用扩散模型生成无限制的对抗样本，并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样，实现了高质量、逼真的对抗样本生成。实验证明，AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。

Jul, 2023

水印嵌入的对抗性样本用于抵抗扩散模型的版权保护

提出了一种将个人水印嵌入敌对实例生成中的新框架，以生成具有可见水印的图像，防止敌对模型模仿未授权图像，并在各种条件图像生成场景进行广泛实验，证明了敌对实例具有良好的传递性，从而提供了一种保护基于扩散模型的版权的简单而有效的方法。

Apr, 2024

欺骗性扩散：生成合成对抗样本

引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同，欺骗扩散模型可以创建任意数量的新的、被错误分类的图像，这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法，包括在其他情况下难以找到的错误分类类型。在我们的实验中，我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞：如果攻击者能够秘密地污染部分训练数据，那么生成的扩散模型将产生相似比例的误导输出。

Jun, 2024

针对目标转移场景下的视觉 - 语言模型生成高效对抗样本的扩散模型

传统的迁移攻击成本高，噪音明显且对防御方法难以有效回避。本文通过生成自然、非受限的对抗样本，提出了 AdvDiffVLM 方法，利用扩散模型和自适应集成梯度估计改善了传统方法的缺陷，并通过 GradCAM-guided Mask 方法提高了样本质量。实验结果显示，我们的方法在速度上比现有方法快 10 倍至 30 倍，并保持了超强的对抗样本质量。此外，生成的对抗样本在攻击上具有强大的迁移性，并对对抗性防御方法表现出增强的抗性。值得注意的是，AdvDiffVLM 可以以黑盒方式成功攻击商业化的大型视觉语言模型，包括 GPT-4V。

Apr, 2024

面向不可察觉和可迁移对抗攻击的扩散模型

论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步 “欺骗” 扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

May, 2023

深度神经网络中对抗性样本的可迁移性调查

深度神经网络的关键问题之一是对抗性攻击和转移性，考虑到安全性和未来的发展，需要加强对抗性漏洞的防御。

Oct, 2023

关于检测扩散模型生成的合成图像

本文旨在了解人们无法将由扩散模型产生的合成图像与原始图像区分开来的难度，并研究当前的最先进检测器是否适用于此任务。

Nov, 2022

稳定扩散提高对抗转移性

该研究探讨了使用 Stable Diffusion 生成的数据来增强对抗攻击的传递性，提出了一种基于 Stable Diffusion 的新型攻击方法，并提供了一个快速变体，通过实验证明该方法在对抗性传递性方面优于现有方法，并且与现有的基于传递的攻击方法相兼容。

Nov, 2023