大型视觉语言模型的白盒多模态越狱

May, 2024

大型视觉语言模型的白盒多模态越狱

White-box Multimodal Jailbreaks Against Large Vision-Language Models

Ruofan Wang, Xingjun Ma, Hanxu Zhou, Chuanjun Ji, Guangnan Ye...

TL;DR通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

Abstract

Recent advancements in large vision-language models (VLMs) have underscored their superiority in various multimodal tasks. However, the adversarial robustness of VLMs has not been fully explored. Existing methods mainly assess robustness through unimodal adversarial attacks that pertur

large vision-language models adversarial robustness text-based attacks adversarial image prefix universal master key

发现论文，激发创造

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

ImgTrojan: 用一张图像越狱视觉 - 语言模型

本文提出了一种针对视觉语言模型的新型越狱攻击方法，通过替换原始文本标题为恶意越狱提示，来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响，我们设计了两个指标来量化攻击的成功率和隐秘性，提供了一个用于测量攻击效果的基准。通过与基准方法进行比较，我们证明了我们的攻击方法的有效性。

Mar, 2024

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

引入视觉模态的高效 LLM 越狱

该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比，我们的方法更加高效，因为 MLLM 比纯语言模型更容易越狱。此外，为提高越狱成功率，我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明，我们的方法在效率和有效性方面超越了当前最先进的方法。此外，我们的方法具有优越的跨类别越狱能力。

May, 2024

查询相关图像：大型多模态模型越狱

我们用一种新的视觉提示攻击方法，通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明，即使采用了安全对齐的大型语言模型，我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术，我们编制了一个大规模数据集，评估了 12 种先进的 LMMs 在 13 种情景中的弱点，这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs 安全措施以防止潜在恶意利用的需求。

Nov, 2023

JailBreakV-28K: 评估多模态大语言模型抵抗破解攻击的基准测试

本文研究了对抗大型多模态语言模型（MLLMs）的问题，通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性，并评估了 MLLM 对多样越狱攻击的鲁棒性，结果表明 MLLM 存在来自文本处理功能的关键脆弱性，强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。

Apr, 2024

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉 - 语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

多模态代理的对抗攻击

基于视觉和语言的模型对自主多模态代理进行了攻击，展示了新的安全风险，并通过对抗性文本字符串指导基于梯度的扰动来执行对手目标。

Jun, 2024

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024