对抗性样本在扩散模型流形中不一致

Jan, 2024

对抗性样本在扩散模型流形中不一致

Adversarial Examples are Misaligned in Diffusion Model Manifolds

Peter Lorenz, Ricard Durall, Jansi Keuper

TL;DR通过扩散模型检测和分析攻击引入的图像异常，结果表明攻击实例与扩散模型的学习流形不一致。

Abstract

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these

diffusion models adversarial attacks anomalies image classifiers distributions

发现论文，激发创造

Mist：面向扩散模型的改进对抗样本

本文研究了扩散模型对于人工智能生成内容，特别是艺术创作的成功，并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。

May, 2023

对抗样本的良性应用：通过对抗样本防止扩散模型模仿绘画

本文介绍了一种基于对抗样本的算法，称为 AdvDM，用于生成能够保护画家版权的扩散模型（DMs）的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明，估计得到的对抗样本能够有效地阻止 DMs 提取其特征。

Feb, 2023

AdvDiff：使用扩散模型生成无限制的对抗样本

提出了一种新方法 AdvDiff，使用扩散模型生成无限制的对抗样本，并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样，实现了高质量、逼真的对抗样本生成。实验证明，AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。

Jul, 2023

欺骗性扩散：生成合成对抗样本

引入了欺骗扩散的概念 -- 训练生成 AI 模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同，欺骗扩散模型可以创建任意数量的新的、被错误分类的图像，这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法，包括在其他情况下难以找到的错误分类类型。在我们的实验中，我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞：如果攻击者能够秘密地污染部分训练数据，那么生成的扩散模型将产生相似比例的误导输出。

Jun, 2024

超越对抗扰动：借助流形辅助的具有合法语义的对抗样本

提出了一种有监督的语义转换生成模型，用于生成具有真实和合法语义的对抗性样本，实现了从非对抗性样本到对抗性样本的合法过渡。实验结果表明，生成的对抗性样本不仅具有更好的视觉质量，还实现了更高的攻击可迁移性和更有效的模型漏洞解释。

Feb, 2024

使用扩散模型的威胁模型不可知对抗性防御

本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法，该方法利用了随机生成建模的最新进展，并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声，然后进行预训练扩散过程，该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证，表明我们的方法在各种威胁模型下优于主要的防御方法。

Jul, 2022

像素是一道屏障：扩散模型比我们认为的更具对抗性的鲁棒性

通过对扩散模型中的对抗性示例进行研究，我们发现扩散模型在像素空间中对抗性示例 (即 PDMs) 具有较强的鲁棒性，并可用作有效去除对 LDMs 生成的对抗性模式的净化器，使得现有的多种保护方法在一定程度上无法有效保护我们的图像。

Apr, 2024

Adv-Diffusion: 通过潜在扩散模型实施难以察觉的敌对人脸身份攻击

该研究论文提出了一种统一的框架 Adv-Diffusion，可以在潜在空间而不是原始像素空间中生成不可感知的对抗性身份扰动，利用潜在扩散模型的强大修补能力生成逼真的对抗性图像。通过在周围环境中生成语义扰动的身份敏感条件扩散生成模型，设计了自适应强度的对抗性扰动算法，既能确保攻击的可传递性又能保持隐秘性。在公开的 FFHQ 和 CelebA-HQ 数据集上进行了广泛的定性和定量实验，证明该方法在没有额外的生成模型训练过程的情况下取得了卓越的性能。源代码可在此链接中获取。

Dec, 2023

面向不可察觉和可迁移对抗攻击的扩散模型

论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步 “欺骗” 扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

May, 2023

双流形对抗性鲁棒性：抵御 Lp 和非 Lp 对抗攻击

通过在图像的潜在空间中对对抗样本进行对抗训练以及利用生成模型中学习到的流形信息进行双流形对抗训练，可以大大提高深度学习模型的鲁棒性，从而有效地应对多种新颖的对抗攻击。

Sep, 2020