Mar, 2024

ImgTrojan: 用一张图像越狱视觉 - 语言模型

TL;DR本文提出了一种针对视觉语言模型的新型越狱攻击方法,通过替换原始文本标题为恶意越狱提示,来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响,我们设计了两个指标来量化攻击的成功率和隐秘性,提供了一个用于测量攻击效果的基准。通过与基准方法进行比较,我们证明了我们的攻击方法的有效性。