针对目标转移场景下的视觉 - 语言模型生成高效对抗样本的扩散模型

Apr, 2024

针对目标转移场景下的视觉 - 语言模型生成高效对抗样本的扩散模型

Efficiently Adversarial Examples Generation for Visual-Language Models under Targeted Transfer Scenarios using Diffusion Models

PDF

Qi Guo, Shanmin Pang, Xiaojun Jia, Qing Guo

TL;DR传统的迁移攻击成本高，噪音明显且对防御方法难以有效回避。本文通过生成自然、非受限的对抗样本，提出了 AdvDiffVLM 方法，利用扩散模型和自适应集成梯度估计改善了传统方法的缺陷，并通过 GradCAM-guided Mask 方法提高了样本质量。实验结果显示，我们的方法在速度上比现有方法快 10 倍至 30 倍，并保持了超强的对抗样本质量。此外，生成的对抗样本在攻击上具有强大的迁移性，并对对抗性防御方法表现出增强的抗性。值得注意的是，AdvDiffVLM 可以以黑盒方式成功攻击商业化的大型视觉语言模型，包括 GPT-4V。

Abstract

Targeted transfer-based attacks involving adversarial examples pose a significant threat to large visual-language models (VLMs). However, the state-of-the-art (SOTA) →

transfer-based attacks adversarial examples diffusion models adaptive ensemble gradient estimation adversarial defense methods

发现论文，激发创造

AdvDiff：使用扩散模型生成无限制的对抗样本

提出了一种新方法 AdvDiff，使用扩散模型生成无限制的对抗样本，并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样，实现了高质量、逼真的对抗样本生成。实验证明，AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。

Jul, 2023

Mist：面向扩散模型的改进对抗样本

本文研究了扩散模型对于人工智能生成内容，特别是艺术创作的成功，并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。

May, 2023

基于扩散模型的语义对抗攻击

通过利用最近的扩散模型的潜在空间中的语义信息，本文提出了一个快速生成语义对抗攻击的框架，并在 CelebA-HQ 和 AFHQ 数据集上进行了大量实验，与其他基线相比，我们的框架在多种情境中取得了极高的成功率，最佳 FID 为 36.61。

Sep, 2023

集合级指导攻击：增强视觉 - 语言预训练模型的对抗迁移能力

通过对最近的 VLP 模型的对抗性传递性进行第一次研究，我们观察到现有方法在传递性方面表现较低，这部分原因是由于对跨模态交互的利用不足。因此，我们提出了一种高传递性的集合级引导攻击（SGA）方法，该方法充分利用模态交互，并结合保留对齐的增强和跨模态引导。实验结果表明，SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例，在多个下游视觉语言任务中，SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率，比现有技术至少提高了 9.78％，最高可达 30.21％。

Jul, 2023

DiffAttack：扩散反对抗净化的逃避攻击

在这篇论文中，我们提出了一种统一框架 DiffAttack，用于对基于扩散的净化防御进行有效和高效的攻击，包括 DDPM 和基于分数的方法。我们通过在中间扩散步骤引入偏差重建损失来解决梯度消失 / 爆炸问题，提供了一种分段转发 - 反向传播算法，通过降低模型的稳健性减少了针对 CIFAR-10 和 ImageNet 的攻击的准确性。

Oct, 2023

稳定扩散提高对抗转移性

该研究探讨了使用 Stable Diffusion 生成的数据来增强对抗攻击的传递性，提出了一种基于 Stable Diffusion 的新型攻击方法，并提供了一个快速变体，通过实验证明该方法在对抗性传递性方面优于现有方法，并且与现有的基于传递的攻击方法相兼容。

Nov, 2023

理解和改进潜在扩散模型上的对抗攻击

通过引入全面的理论框架并提出新的对抗性攻击方法，本文对基于 LDM 的对抗性攻击进行了深入研究，通过严格的实验，证明该方法优于现有攻击方法，并能在不同的基于 LDM 的少样本生成流程中进行泛化，成为在新一代强大生成模型中可为暴露于数据隐私和安全风险中的人们提供更强大和高效的保护工具。

Oct, 2023

对抗样本的良性应用：通过对抗样本防止扩散模型模仿绘画

本文介绍了一种基于对抗样本的算法，称为 AdvDM，用于生成能够保护画家版权的扩散模型（DMs）的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明，估计得到的对抗样本能够有效地阻止 DMs 提取其特征。

Feb, 2023

基于扩散的对抗样本生成技术，改善隐蔽性和可控性

该论文提出了一种名为 Diff-PGD 的新框架，用于生成逼真的对抗样本，并通过使用扩散模型引导梯度，确保对抗样本保持靠近原始数据分布同时保持其有效性，证明使用 Diff-PGD 生成的样本具有更好的可转移性和抗净化能力。

May, 2023

一种用于提高对抗传递性的自适应模型集成对抗攻击方法

通过自适应地控制每个模型输出的融合，监测其对于攻击目标的贡献差异比率，本文提出了一种自适应集成攻击（AdaEA）方法，并引入一个降低差异的滤波器以进一步同步更新方向，从而在各种数据集上取得了显著改进，同时能够提升已有的基于迁移的攻击方法，进一步证明了其高效性和多功能性。

Aug, 2023