Oct, 2024

突破视觉感知:针对大型视觉-语言模型编码视觉标记的对抗攻击

TL;DR本研究解决了大型视觉-语言模型在视觉模块中的鲁棒性问题,即如何有效应对对抗图像攻击。我们提出了一种非针对性攻击方法VT-Attack,能够从多角度构建对抗样本,全面干扰视觉标记的特征表示和语义特性。实验结果表明,VT-Attack在攻击性能上优于基线方法,为提高LVLM的稳健性提供了有效的指导。