图像是对齐的弱点：利用视觉漏洞对跨模态大型语言模型进行越狱

Mar, 2024

图像是对齐的弱点：利用视觉漏洞对跨模态大型语言模型进行越狱

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models

PDF

Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen

TL;DR研究了多模态大型语言模型（MLLMs）的无害对齐问题，通过对代表性 MLLMs 的无害性能进行系统的实证分析，揭示了图像输入对 MLLMs 的对准易受攻击的弱点。在此基础上，提出了一种名为 HADES 的新型越狱方法，利用精心制作的图像隐藏和放大文本输入中的恶意意图的有害性。实验结果表明，HADES 能够有效地越狱现有的 MLLMs，其中对于 LLaVA-1.5 平均攻击成功率（ASR）为 90.26%，对于 Gemini Pro Vision 为 71.60%。我们的代码和数据将会公开发布。

Abstract

In this paper, we study the harmlessness alignment problem of multimodal large language models~(MLLMs). We conduct a systematic empirical analysis of the harmlessness performance of representative MLLMs and reveal that the image input poses the alignment vulnerability of MLLMs. Inspire

harmlessness alignment problem multimodal large language models hades malicious intent jailbreak

发现论文，激发创造

ImgTrojan: 用一张图像越狱视觉 - 语言模型

本文提出了一种针对视觉语言模型的新型越狱攻击方法，通过替换原始文本标题为恶意越狱提示，来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响，我们设计了两个指标来量化攻击的成功率和隐秘性，提供了一个用于测量攻击效果的基准。通过与基准方法进行比较，我们证明了我们的攻击方法的有效性。

Mar, 2024

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024

引入视觉模态的高效 LLM 越狱

该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比，我们的方法更加高效，因为 MLLM 比纯语言模型更容易越狱。此外，为提高越狱成功率，我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明，我们的方法在效率和有效性方面超越了当前最先进的方法。此外，我们的方法具有优越的跨类别越狱能力。

May, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

查询相关图像：大型多模态模型越狱

我们用一种新的视觉提示攻击方法，通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明，即使采用了安全对齐的大型语言模型，我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术，我们编制了一个大规模数据集，评估了 12 种先进的 LMMs 在 13 种情景中的弱点，这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs 安全措施以防止潜在恶意利用的需求。

Nov, 2023

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

跨模态越狱与医疗多模态大语言模型的不匹配攻击

介绍了 MedMLLMs（医学环境下的多模态大型语言模型）的安全漏洞，并提出了两种攻击类型（2M-attack 和 O2M-attack），并通过构建 3MAD 数据集进行评估，指出即使设计具有增强安全功能的 MedMLLMs 也存在安全漏洞，强调了在医疗环境中实施强大安全措施和增强开源 MedMLLMs 的安全性的紧迫性。

May, 2024

Visual-RolePlay: 多模态大型语言模型上的通用越狱攻击：通过角色扮演图像人物

利用多模态大型语言模型的结构化越狱攻击，通过视觉角色扮演 (VRP) 方法，在高风险角色的详细描述和对应图像的生成中，有效地误导模型以产生恶意回应，并在多个模型中表现出 14.3% 的攻击成功率优势。

May, 2024

Agent Smith: 一张图片能以指数速度越狱一百万多模态 LLM 智能体

本文研究了多模式大型语言模型的安全问题，其中包括对抗图像和提示的风险以及在多智能体环境中存在的传染性越狱问题，研究结果展示了传染性越狱的可行性，并探讨了如何设计有效的防御机制。

Feb, 2024