ICLRMay, 2024

多模态大型语言模型的视觉定位对抗鲁棒性

TL;DR使用多模态大型语言模型(MLLMs)对视觉定位进行饱受关注的对抗性攻击研究,通过提出三种对抗攻击范式来攻击 MLLMs 的视觉定位性能,进而为提高 MLLMs 的视觉定位的对抗鲁棒性提供了新的视角和强大的基线。