Aug, 2024

探讨视觉语言预训练模型的鲁棒性:一种多模态对抗攻击方法

TL;DR本研究针对视觉语言预训练模型在对抗攻击方面的脆弱性,提出了一种新颖的联合多模态变换特征攻击(JMTFA)方法。该方法在白盒环境下,针对视觉和文本两个模态同时引入对抗扰动,显著提高了对抗攻击成功率,并揭示了文本模态对模型的复杂融合过程具有重要影响,这为多模态人工智能系统的可靠部署提供了新视角。