面向视觉语言预训练模型的对抗攻击

MMJun, 2022

面向视觉语言预训练模型的对抗攻击

Towards Adversarial Attack on Vision-Language Pre-training Models

Jiaming Zhang, Qi Yi, Jitao Sang

TL;DR本研究针对视觉 - 语言预训练模型（VLP）的鲁棒性问题进行研究，提出了一种名为协作多模态对抗攻击（Co-Attack）的新型攻击方法，以获得对不同视觉 - 语言下游任务和 VLP 模型的更好攻击性能。该研究结果提供了关于 VLP 模型的对抗鲁棒性的新认识，为其在更多实际场景中的安全可靠部署做出了贡献。

Abstract

While vision-language pre-training model (VLP) has shown revolutionary improvements on various vision-language (V+L) tasks, the studies regarding its adversarial robustness remain largely unexplored. This paper s

vision-language pre-training model adversarial attack multimodal attack v+l tasks adversarial robustness

发现论文，激发创造

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

VLAttack：基于预训练模型的视觉 - 语言任务的多模态对抗攻击

本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务，提出了 VLAttack 框架，通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本，实验结果表明该框架在各项任务上攻击成功率最高，揭示了预训练 Vision-Language 模型部署中的一个重要盲点。

Oct, 2023

通过协作多模态交互改善视觉 - 语言预训练模型的敌对可迁移性

通过利用模态交互机制，我们提出了一种名为 CMI-Attack 的新型攻击方法，在保持语义不变的同时，利用嵌入指导和交互增强攻击文本的嵌入层，并利用交互图像梯度增强对文本和图像的扰动约束。在 Flickr30K 数据集的图像 - 文本检索任务中，CMI-Attack 相对于现有方法提高了 ALBEF、TCL、CLIP_ViT 和 CLIP_CNN 的转移成功率 8.11%-16.75%。此外，CMI-Attack 在跨任务泛化情景中也表现出卓越性能，填补了 Vision-Language 预训练模型转移攻击领域的研究空白，揭示了模态交互对增强对抗鲁棒性的重要性。

Mar, 2024

集合级指导攻击：增强视觉 - 语言预训练模型的对抗迁移能力

通过对最近的 VLP 模型的对抗性传递性进行第一次研究，我们观察到现有方法在传递性方面表现较低，这部分原因是由于对跨模态交互的利用不足。因此，我们提出了一种高传递性的集合级引导攻击（SGA）方法，该方法充分利用模态交互，并结合保留对齐的增强和跨模态引导。实验结果表明，SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例，在多个下游视觉语言任务中，SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率，比现有技术至少提高了 9.78％，最高可达 30.21％。

Jul, 2023

多模态代理的对抗攻击

基于视觉和语言的模型对自主多模态代理进行了攻击，展示了新的安全风险，并通过对抗性文本字符串指导基于梯度的扰动来执行对手目标。

Jun, 2024

一个扰动就足够了：关于生成对抗视觉语言预训练模型的通用对抗扰动

我们展示了 Vision-Language Pre-training（VLP）模型对新型的通用对抗扰动（UAP）攻击的脆弱性，并提出了一种基于多模态对齐的 Contrastive-training Perturbation Generator 方法，该方法在各种 VLP 模型和多模态任务中展现出卓越的攻击性能，并表现出出色的黑盒可迁移性。

Jun, 2024

SA-Attack: 通过自我增强改善视觉语言预训练模型的对抗可转移性

通过总结和分析现有研究，我们确定了可以影响 Visual-Language Pre-training 模型上的转移攻击效果的两个因素：跨模态交互和数据多样性。基于这些观察，我们提出了一种新的基于自我增强的转移攻击方法，称为 SA-Attack。我们在 Flickr30K 和 COCO 数据集上的实验证实了我们方法的有效性。

Dec, 2023

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉 - 语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

MirrorCheck：视觉语言模型的高效对抗性防御

通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像，并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本，我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本，并且经过实证评估，我们的方法表现出比基于图像分类领域的基线方法更好的效果，同时我们还将这种方法扩展到分类任务中，并展示了其适应性和模型不可知性，从理论和实证发现来看，我们的方法对自适应攻击具有很强的韧性，使其成为在真实世界中应对对抗威胁的出色防御机制。

Jun, 2024

视觉语言模型的部分再集中软最大值损失函数鲁棒性

通过修改预训练的多模态模型的损失函数，限制前 K 个 softmax 输出，本研究在评估和评分基础上展示了，经过微调后，预训练模型的对抗鲁棒性可以显著提高，抵御常见攻击。后续研究应该探索这种损失函数的输出多样性、泛化性以及鲁棒性与性能之间的权衡关系。本文代码会在接受后提供。

Feb, 2024