查询相关图像:大型多模态模型越狱
介绍了 MedMLLMs(医学环境下的多模态大型语言模型)的安全漏洞,并提出了两种攻击类型(2M-attack 和 O2M-attack),并通过构建 3MAD 数据集进行评估,指出即使设计具有增强安全功能的 MedMLLMs 也存在安全漏洞,强调了在医疗环境中实施强大安全措施和增强开源 MedMLLMs 的安全性的紧迫性。
May, 2024
该研究聚焦于针对大型语言模型的越狱攻击,以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型,构建一个多模态大型语言模型(MLLM),我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS,并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比,我们的方法更加高效,因为 MLLM 比纯语言模型更容易越狱。此外,为提高越狱成功率,我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明,我们的方法在效率和有效性方面超越了当前最先进的方法。此外,我们的方法具有优越的跨类别越狱能力。
May, 2024
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性,生成的 imgJP 可被转移到各种模型中,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等,以黑盒方式进行越狱。此外,我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此,我们引入了一种基于构造的方法,将我们的方法应用于 LLM 越狱,比当前最先进的方法更高效。代码可在此处找到。警告:一些由语言模型生成的内容可能对某些读者具有冒犯性。
Feb, 2024
本文研究了对抗大型多模态语言模型(MLLMs)的问题,通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性,并评估了 MLLM 对多样越狱攻击的鲁棒性,结果表明 MLLM 存在来自文本处理功能的关键脆弱性,强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。
Apr, 2024
大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展暴露了各种对抗性攻击的漏洞。本文综述了针对 LLMs 和 MLLMs 的越狱研究的最新进展,重点介绍了评估基准、攻击技术和防御策略。与单模态越狱的更先进状态相比,多模态领域仍未得到充分开发。我们总结了多模态越狱的限制和潜在研究方向,旨在激发未来研究,进一步增强 MLLMs 的鲁棒性和安全性。
Jun, 2024
通过对大规模视觉语言模型的攻击,我们提出了一种综合性的策略,该策略同时攻击文本和图像模态,以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明,我们的通用攻击策略可以有效地越狱 MiniGPT-4,成功率达到 96%,突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。
May, 2024
多模态大型语言模型(MLLMs)的整合增强了其功能,但也带来了安全漏洞,本研究旨在分析并总结 MLLMs 的攻击和防御机制,并提出未来研究的建议,以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。
Apr, 2024
通过对不同攻击方式的全面研究,本文发现大型多模态模型对于视觉对抗性输入并不具备鲁棒性,但给模型提供上下文(例如问答中的问题)可以降低视觉对抗性输入的影响。该研究还提出了一种新的真实世界图像分类方法,称为查询分解,通过将存在性查询融入输入提示中,观察到攻击的效果减弱和图像分类准确性的提高,从而对多模态系统在对抗环境中增强韧性方面提供了开创性的研究。
Dec, 2023
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
Jan, 2024