JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

Apr, 2024

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks

Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao

TL;DR本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Abstract

With the rapid advancements in multimodal large language models (mllms), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we

multimodal large language models jailbreakv-28k transferability mllms adversarial scenarios

发现论文，激发创造

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024

从 LLMs 到 MLLMs：探索多模态越狱的领域

大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的快速发展暴露了各种对抗性攻击的漏洞。本文综述了针对 LLMs 和 MLLMs 的越狱研究的最新进展，重点介绍了评估基准、攻击技术和防御策略。与单模态越狱的更先进状态相比，多模态领域仍未得到充分开发。我们总结了多模态越狱的限制和潜在研究方向，旨在激发未来研究，进一步增强 MLLMs 的鲁棒性和安全性。

Jun, 2024

引入视觉模态的高效 LLM 越狱

该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比，我们的方法更加高效，因为 MLLM 比纯语言模型更容易越狱。此外，为提高越狱成功率，我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明，我们的方法在效率和有效性方面超越了当前最先进的方法。此外，我们的方法具有优越的跨类别越狱能力。

May, 2024

技术秘籍：LLM 破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

查询相关图像：大型多模态模型越狱

我们用一种新的视觉提示攻击方法，通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明，即使采用了安全对齐的大型语言模型，我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术，我们编制了一个大规模数据集，评估了 12 种先进的 LMMs 在 13 种情景中的弱点，这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs 安全措施以防止潜在恶意利用的需求。

Nov, 2023

分析型越狱攻击对大型语言模型的研究

我们进一步探索了大型语言模型在监狱破解攻击方面的边界，并提出了基于分析的监狱破解（ABJ）方法。通过在各种开源和闭源大型语言模型上进行详细评估，我们的研究展示了基于分析的监狱破解的攻击效果和效率的最新成果。我们的研究强调了优先考虑和增强大型语言模型的安全性以减少滥用风险的重要性。

Jul, 2024

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024