查询相关图像：大型多模态模型越狱

Nov, 2023

查询相关图像：大型多模态模型越狱

Query-Relevant Images Jailbreak Large Multi-Modal Models

Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao

TL;DR我们用一种新的视觉提示攻击方法，通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明，即使采用了安全对齐的大型语言模型，我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术，我们编制了一个大规模数据集，评估了 12 种先进的 LMMs 在 13 种情景中的弱点，这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs 安全措施以防止潜在恶意利用的需求。

Abstract

Warning: This paper contains examples of harmful language and images, and reader discretion is recommended. The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Large Multi-Modal Models (LMMs) remains understudied. In our study, we present a novel →

large multi-modal models visual prompt attack adversarial attacks open-source lmms safety measures

发现论文，激发创造

跨模态越狱与医疗多模态大语言模型的不匹配攻击

介绍了 MedMLLMs（医学环境下的多模态大型语言模型）的安全漏洞，并提出了两种攻击类型（2M-attack 和 O2M-attack），并通过构建 3MAD 数据集进行评估，指出即使设计具有增强安全功能的 MedMLLMs 也存在安全漏洞，强调了在医疗环境中实施强大安全措施和增强开源 MedMLLMs 的安全性的紧迫性。

May, 2024

引入视觉模态的高效 LLM 越狱

该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比，我们的方法更加高效，因为 MLLM 比纯语言模型更容易越狱。此外，为提高越狱成功率，我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明，我们的方法在效率和有效性方面超越了当前最先进的方法。此外，我们的方法具有优越的跨类别越狱能力。

May, 2024

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

从 LLMs 到 MLLMs：探索多模态越狱的领域

大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的快速发展暴露了各种对抗性攻击的漏洞。本文综述了针对 LLMs 和 MLLMs 的越狱研究的最新进展，重点介绍了评估基准、攻击技术和防御策略。与单模态越狱的更先进状态相比，多模态领域仍未得到充分开发。我们总结了多模态越狱的限制和潜在研究方向，旨在激发未来研究，进一步增强 MLLMs 的鲁棒性和安全性。

Jun, 2024

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

狂放的伊卡洛斯：多模态大语言模型安全中图像输入的潜在危险调研

多模态大型语言模型（MLLMs）的整合增强了其功能，但也带来了安全漏洞，本研究旨在分析并总结 MLLMs 的攻击和防御机制，并提出未来研究的建议，以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。

Apr, 2024

关于大规模多模态模型对抗图像攻击的鲁棒性

通过对不同攻击方式的全面研究，本文发现大型多模态模型对于视觉对抗性输入并不具备鲁棒性，但给模型提供上下文（例如问答中的问题）可以降低视觉对抗性输入的影响。该研究还提出了一种新的真实世界图像分类方法，称为查询分解，通过将存在性查询融入输入提示中，观察到攻击的效果减弱和图像分类准确性的提高，从而对多模态系统在对抗环境中增强韧性方面提供了开创性的研究。

Dec, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024