Dec, 2023

OT-Attack: 通过最优传输优化增强视觉语言模型的对抗迁移性

TL;DR基于视觉-语言预训练的模型(VLP)展示了在处理图像和文本方面的令人印象深刻的能力,然而它们容易受到多模态对抗样本的攻击。本研究通过探索数据增强和图像-文本模态交互之间的最佳对齐问题,提出了一种基于最优输运理论的对抗性攻击方法,命名为OT-Attack,以有效地对抗过拟合问题,并在图像-文本匹配任务中的各种网络架构和数据集中进行的广泛实验显示,OT-Attack在对抗性可迁移性方面优于现有的最先进方法。