May, 2024

引入视觉模态的高效 LLM 越狱

TL;DR该研究聚焦于针对大型语言模型的越狱攻击,以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型,构建一个多模态大型语言模型(MLLM),我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS,并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比,我们的方法更加高效,因为 MLLM 比纯语言模型更容易越狱。此外,为提高越狱成功率,我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明,我们的方法在效率和有效性方面超越了当前最先进的方法。此外,我们的方法具有优越的跨类别越狱能力。