Apr, 2024

针对目标转移场景下的视觉 - 语言模型生成高效对抗样本的扩散模型

TL;DR传统的迁移攻击成本高,噪音明显且对防御方法难以有效回避。本文通过生成自然、非受限的对抗样本,提出了 AdvDiffVLM 方法,利用扩散模型和自适应集成梯度估计改善了传统方法的缺陷,并通过 GradCAM-guided Mask 方法提高了样本质量。实验结果显示,我们的方法在速度上比现有方法快 10 倍至 30 倍,并保持了超强的对抗样本质量。此外,生成的对抗样本在攻击上具有强大的迁移性,并对对抗性防御方法表现出增强的抗性。值得注意的是,AdvDiffVLM 可以以黑盒方式成功攻击商业化的大型视觉语言模型,包括 GPT-4V。