基于扩散模型的语义对抗攻击

Sep, 2023

Semantic Adversarial Attacks via Diffusion Models

Chenan Wang, Jinhao Duan, Chaowei Xiao, Edward Kim, Matthew Stamm...

TL;DR通过利用最近的扩散模型的潜在空间中的语义信息，本文提出了一个快速生成语义对抗攻击的框架，并在 CelebA-HQ 和 AFHQ 数据集上进行了大量实验，与其他基线相比，我们的框架在多种情境中取得了极高的成功率，最佳 FID 为 36.61。

Abstract

Traditional adversarial attacks concentrate on manipulating clean examples in the pixel space by adding adversarial perturbations. By contrast, semantic adversarial attacks focus on changing semantic attributes o

adversarial attacks semantic adversarial attacks diffusion models latent space framework

发现论文，激发创造

通过特征操纵生成语义对抗样本

本文提出了一种实用的针对深度神经网络的对抗攻击方法，通过语义意义感知的结构化扰动来操纵图像的语义属性，以此生成针对黑盒分类器的对抗扰动，并提出了两种无监督的语义操作方法，通过在潜在空间中扰动单个或多个潜在因素，并在真实图像数据上进行大量实验，证明了其能力的强大性，同时也论证了普适于所有图像的语义对抗样本的存在。

Jan, 2020

SemanticAdv: 基于属性条件图像编辑的生成对抗样本方法

本研究旨在探索语义干扰对深度神经网络预测结果的影响，并通过提出的算法 SemanticAdv 来生成对各种 “对抗性” 目标偏离的扰动，从而欺骗深度神经网络。实验结果表明，具有控制语义干扰的对抗性例子不仅可以迷惑不同的学习任务，还可以对抗基于迁移的真实世界黑盒服务。

Jun, 2019

语义对抗样本

本文提出了一种新类的对抗样本 ——“语义对抗样本”，即通过对图像进行任意扰动来欺骗模型，但修改后的图像在语义上代表的仍是原始图像，通过构建约束优化问题和基于人类认知系统的形状偏置特性的对抗变换，生成对抗图像的颜色转移极大影响了 Deep neural networks 模型精度。

Mar, 2018

语义对抗攻击：参数转换欺骗深度分类器

本文通过对参数条件生成模型的范围空间进行对抗性损失的优化，提出了一种新颖的方法来生成 “语义” 对抗性示例，并在面部图像上展示了其攻击的效果。

Apr, 2019

Adv-Diffusion: 通过潜在扩散模型实施难以察觉的敌对人脸身份攻击

该研究论文提出了一种统一的框架 Adv-Diffusion，可以在潜在空间而不是原始像素空间中生成不可感知的对抗性身份扰动，利用潜在扩散模型的强大修补能力生成逼真的对抗性图像。通过在周围环境中生成语义扰动的身份敏感条件扩散生成模型，设计了自适应强度的对抗性扰动算法，既能确保攻击的可传递性又能保持隐秘性。在公开的 FFHQ 和 CelebA-HQ 数据集上进行了广泛的定性和定量实验，证明该方法在没有额外的生成模型训练过程的情况下取得了卓越的性能。源代码可在此链接中获取。

Dec, 2023

通过对抗语义蒙版实现难以察觉的人脸伪造攻击

提出了一种具有良好迁移性和隐蔽性的对抗语义掩码攻击框架 (ASMA)，该框架使用了语义掩码来生成具有局部语义区域中的扰动的对抗样本，并通过自适应语义掩码选择策略提高了攻击的迁移性和隐蔽性。与其他对抗攻击方法相比，该方法在公共人脸伪造数据集上具有卓越的性能。

Jun, 2024

面向不可察觉和可迁移对抗攻击的扩散模型

论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步 “欺骗” 扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

May, 2023

SemAttack: 基于不同语义空间的自然文本攻击

提出了一种有效的 SemAttack 框架，在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本，可针对包括大规模 LM 和防御策略在内的对抗方法，适用于不同语言的对抗生成，而人评结果表明生成出的对抗文本自然，几乎不影响人类的表现。

May, 2022

针对目标转移场景下的视觉 - 语言模型生成高效对抗样本的扩散模型

传统的迁移攻击成本高，噪音明显且对防御方法难以有效回避。本文通过生成自然、非受限的对抗样本，提出了 AdvDiffVLM 方法，利用扩散模型和自适应集成梯度估计改善了传统方法的缺陷，并通过 GradCAM-guided Mask 方法提高了样本质量。实验结果显示，我们的方法在速度上比现有方法快 10 倍至 30 倍，并保持了超强的对抗样本质量。此外，生成的对抗样本在攻击上具有强大的迁移性，并对对抗性防御方法表现出增强的抗性。值得注意的是，AdvDiffVLM 可以以黑盒方式成功攻击商业化的大型视觉语言模型，包括 GPT-4V。

Apr, 2024

语义扰动下的互模态对抗攻击

我们提出了一种新的方法，在互模态优化方案中生成对抗性攻击，利用预训练的 CLIP 模型进行视觉攻击和文本防御，并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证，表明我们的互模态攻击策略能够有效产生高可转移攻击，并且优于最先进的攻击方法，可作为即插即用解决方案。

Dec, 2023