VLAttack：基于预训练模型的视觉 - 语言任务的多模态对抗攻击

Oct, 2023

VLAttack：基于预训练模型的视觉 - 语言任务的多模态对抗攻击

VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models

Ziyi Yin, Muchao Ye, Tianrong Zhang, Tianyu Du, Jinguo Zhu...

TL;DR本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务，提出了 VLAttack 框架，通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本，实验结果表明该框架在各项任务上攻击成功率最高，揭示了预训练 Vision-Language 模型部署中的一个重要盲点。

Abstract

Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the →

vision-language pre-trained models adversarial robustness image and text perturbations black-box fine-tuned models vlattack framework

发现论文，激发创造

面向视觉语言预训练模型的对抗攻击

本研究针对视觉 - 语言预训练模型（VLP）的鲁棒性问题进行研究，提出了一种名为协作多模态对抗攻击（Co-Attack）的新型攻击方法，以获得对不同视觉 - 语言下游任务和 VLP 模型的更好攻击性能。该研究结果提供了关于 VLP 模型的对抗鲁棒性的新认识，为其在更多实际场景中的安全可靠部署做出了贡献。

Jun, 2022

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

集合级指导攻击：增强视觉 - 语言预训练模型的对抗迁移能力

通过对最近的 VLP 模型的对抗性传递性进行第一次研究，我们观察到现有方法在传递性方面表现较低，这部分原因是由于对跨模态交互的利用不足。因此，我们提出了一种高传递性的集合级引导攻击（SGA）方法，该方法充分利用模态交互，并结合保留对齐的增强和跨模态引导。实验结果表明，SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例，在多个下游视觉语言任务中，SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率，比现有技术至少提高了 9.78％，最高可达 30.21％。

Jul, 2023

VQAttack：基于预训练模型的可传递视觉问答对抗攻击

使用预训练的多模态源模型生成对抗性图像 - 文本对来攻击目标 VQA 模型，并提出了一种新的 VQAttack 模型，通过设计的模块迭代生成图像和文本扰动，实验证明在转移攻击环境下，与现有方法相比，该模型具有有效性。

Feb, 2024

通过协作多模态交互改善视觉 - 语言预训练模型的敌对可迁移性

通过利用模态交互机制，我们提出了一种名为 CMI-Attack 的新型攻击方法，在保持语义不变的同时，利用嵌入指导和交互增强攻击文本的嵌入层，并利用交互图像梯度增强对文本和图像的扰动约束。在 Flickr30K 数据集的图像 - 文本检索任务中，CMI-Attack 相对于现有方法提高了 ALBEF、TCL、CLIP_ViT 和 CLIP_CNN 的转移成功率 8.11%-16.75%。此外，CMI-Attack 在跨任务泛化情景中也表现出卓越性能，填补了 Vision-Language 预训练模型转移攻击领域的研究空白，揭示了模态交互对增强对抗鲁棒性的重要性。

Mar, 2024

SA-Attack: 通过自我增强改善视觉语言预训练模型的对抗可转移性

通过总结和分析现有研究，我们确定了可以影响 Visual-Language Pre-training 模型上的转移攻击效果的两个因素：跨模态交互和数据多样性。基于这些观察，我们提出了一种新的基于自我增强的转移攻击方法，称为 SA-Attack。我们在 Flickr30K 和 COCO 数据集上的实验证实了我们方法的有效性。

Dec, 2023

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

一个扰动就足够了：关于生成对抗视觉语言预训练模型的通用对抗扰动

我们展示了 Vision-Language Pre-training（VLP）模型对新型的通用对抗扰动（UAP）攻击的脆弱性，并提出了一种基于多模态对齐的 Contrastive-training Perturbation Generator 方法，该方法在各种 VLP 模型和多模态任务中展现出卓越的攻击性能，并表现出出色的黑盒可迁移性。

Jun, 2024

多模态代理的对抗攻击

基于视觉和语言的模型对自主多模态代理进行了攻击，展示了新的安全风险，并通过对抗性文本字符串指导基于梯度的扰动来执行对手目标。

Jun, 2024

MirrorCheck：视觉语言模型的高效对抗性防御

通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像，并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本，我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本，并且经过实证评估，我们的方法表现出比基于图像分类领域的基线方法更好的效果，同时我们还将这种方法扩展到分类任务中，并展示了其适应性和模型不可知性，从理论和实证发现来看，我们的方法对自适应攻击具有很强的韧性，使其成为在真实世界中应对对抗威胁的出色防御机制。

Jun, 2024