Mar, 2024
图像是对齐的弱点:利用视觉漏洞对跨模态大型语言模型进行越狱
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models
Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen
TL;DR研究了多模态大型语言模型(MLLMs)的无害对齐问题,通过对代表性 MLLMs 的无害性能进行系统的实证分析,揭示了图像输入对 MLLMs 的对准易受攻击的弱点。在此基础上,提出了一种名为 HADES 的新型越狱方法,利用精心制作的图像隐藏和放大文本输入中的恶意意图的有害性。实验结果表明,HADES 能够有效地越狱现有的 MLLMs,其中对于 LLaVA-1.5 平均攻击成功率(ASR)为 90.26%,对于 Gemini Pro Vision 为 71.60%。我们的代码和数据将会公开发布。