Mar, 2024

图像是对齐的弱点:利用视觉漏洞对跨模态大型语言模型进行越狱

TL;DR研究了多模态大型语言模型(MLLMs)的无害对齐问题,通过对代表性 MLLMs 的无害性能进行系统的实证分析,揭示了图像输入对 MLLMs 的对准易受攻击的弱点。在此基础上,提出了一种名为 HADES 的新型越狱方法,利用精心制作的图像隐藏和放大文本输入中的恶意意图的有害性。实验结果表明,HADES 能够有效地越狱现有的 MLLMs,其中对于 LLaVA-1.5 平均攻击成功率(ASR)为 90.26%,对于 Gemini Pro Vision 为 71.60%。我们的代码和数据将会公开发布。