面向不可察觉和可迁移对抗攻击的扩散模型

May, 2023

面向不可察觉和可迁移对抗攻击的扩散模型

Diffusion Models for Imperceptible and Transferable Adversarial Attack

Jianqi Chen, Hao Chen, Keyan Chen, Yilan Zhang, Zhengxia Zou...

TL;DR论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步 “欺骗” 扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

Abstract

Many existing adversarial attacks generate $L_p$-norm perturbations on image RGB space. Despite some achievements in transferability and attack success rate, the crafted adversarial examples are easily perceived by human eyes. Towards visual imperceptibility, some recent works explore unrestricted attacks without $L_p$-norm constraints, yet lacking transfera

adversarial attack imperceptible transferable diffusion models content-preserving structures

发现论文，激发创造

Adv-Diffusion: 通过潜在扩散模型实施难以察觉的敌对人脸身份攻击

该研究论文提出了一种统一的框架 Adv-Diffusion，可以在潜在空间而不是原始像素空间中生成不可感知的对抗性身份扰动，利用潜在扩散模型的强大修补能力生成逼真的对抗性图像。通过在周围环境中生成语义扰动的身份敏感条件扩散生成模型，设计了自适应强度的对抗性扰动算法，既能确保攻击的可传递性又能保持隐秘性。在公开的 FFHQ 和 CelebA-HQ 数据集上进行了广泛的定性和定量实验，证明该方法在没有额外的生成模型训练过程的情况下取得了卓越的性能。源代码可在此链接中获取。

Dec, 2023

像素是一道屏障：扩散模型比我们认为的更具对抗性的鲁棒性

通过对扩散模型中的对抗性示例进行研究，我们发现扩散模型在像素空间中对抗性示例 (即 PDMs) 具有较强的鲁棒性，并可用作有效去除对 LDMs 生成的对抗性模式的净化器，使得现有的多种保护方法在一定程度上无法有效保护我们的图像。

Apr, 2024

潜在扩散模型的鲁棒性

该研究通过分析内部组件对白盒健壮性的影响并评估黑盒健壮性，研究了潜在扩散模型的鲁棒性，发现文献中缺少完整的基准数据集，缺陷自动数据集构建管道可提供数据，用以发掘该模型鲁棒性。

Jun, 2023

基于感知度量的任务通用性对抗攻击

提出一种基于永续度量的方法，通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本，旨在打破相对有限的目前攻击的限制，并可将其通过多个网络扩展到多个任务。

Nov, 2018

探索未学习的扩散模型：可转移的对抗攻击视角

針對高級文字到圖像擴散模型在身份隱私侵犯、版權侵犯和不宜上班的內容生成方面引起的安全問題，本文旨在利用對抗攻擊的可轉移性來探測黑盒情景下的不學習強健性。

Apr, 2024

Mist：面向扩散模型的改进对抗样本

本文研究了扩散模型对于人工智能生成内容，特别是艺术创作的成功，并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。

May, 2023

基于扩散模型的语义对抗攻击

通过利用最近的扩散模型的潜在空间中的语义信息，本文提出了一个快速生成语义对抗攻击的框架，并在 CelebA-HQ 和 AFHQ 数据集上进行了大量实验，与其他基线相比，我们的框架在多种情境中取得了极高的成功率，最佳 FID 为 36.61。

Sep, 2023

基于潜在扩散模型的自然对抗图像补丁生成方法

最近的研究表明，深度神经网络对于对抗性攻击很容易受到攻击，而精心训练的样本或补丁可以欺骗神经网络检测器或人类视觉感知。为了解决这个问题，本文提出了一种名为潜在扩散补丁（LDP）的新型对抗性补丁方法，首先设计了一个预训练的编码器将自然图像压缩到具有关键特征的特征空间，然后使用上述特征空间训练扩散模型，最后通过图像去噪技术探索预训练扩散模型的潜在空间，通过扩散模型的强大的自然能力对补丁和图像进行改进，使它们更容易被人类视觉系统接受。实验结果在数字和物理世界中均表明，LDP 在视觉主观评分上达到了 87.3％，同时仍然保持有效的攻击能力。

Dec, 2023

DiffAttack：扩散反对抗净化的逃避攻击

在这篇论文中，我们提出了一种统一框架 DiffAttack，用于对基于扩散的净化防御进行有效和高效的攻击，包括 DDPM 和基于分数的方法。我们通过在中间扩散步骤引入偏差重建损失来解决梯度消失 / 爆炸问题，提供了一种分段转发 - 反向传播算法，通过降低模型的稳健性减少了针对 CIFAR-10 和 ImageNet 的攻击的准确性。

Oct, 2023

对抗性样本在扩散模型流形中不一致

通过扩散模型检测和分析攻击引入的图像异常，结果表明攻击实例与扩散模型的学习流形不一致。

Jan, 2024