Mar, 2024

通过协作多模态交互改善视觉 - 语言预训练模型的敌对可迁移性

TL;DR通过利用模态交互机制,我们提出了一种名为 CMI-Attack 的新型攻击方法,在保持语义不变的同时,利用嵌入指导和交互增强攻击文本的嵌入层,并利用交互图像梯度增强对文本和图像的扰动约束。在 Flickr30K 数据集的图像 - 文本检索任务中,CMI-Attack 相对于现有方法提高了 ALBEF、TCL、CLIP_ViT 和 CLIP_CNN 的转移成功率 8.11%-16.75%。此外,CMI-Attack 在跨任务泛化情景中也表现出卓越性能,填补了 Vision-Language 预训练模型转移攻击领域的研究空白,揭示了模态交互对增强对抗鲁棒性的重要性。