Nov, 2023

查询相关图像:大型多模态模型越狱

TL;DR我们用一种新的视觉提示攻击方法,通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明,即使采用了安全对齐的大型语言模型,我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术,我们编制了一个大规模数据集,评估了 12 种先进的 LMMs 在 13 种情景中的弱点,这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs 安全措施以防止潜在恶意利用的需求。