ImgTrojan: 用一张图像越狱视觉 - 语言模型
通过对大规模视觉语言模型的攻击,我们提出了一种综合性的策略,该策略同时攻击文本和图像模态,以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明,我们的通用攻击策略可以有效地越狱 MiniGPT-4,成功率达到 96%,突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。
May, 2024
研究通过图像理解扩展大型语言模型(LLMs)已经产生了高性能的视觉语言模型(VLMs)。虽然研究 LLMs 与人类价值观的一致性已经得到了广泛的关注,但 VLMs 的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的 VLMs 的影响,每种 VLM 都使用了不同的建模方法。通过将每个 VLM 与其相应的 LLM 骨干进行比较,我们发现每个 VLM 更容易受到越狱的影响。我们认为这是从视觉指导调整中产生的对 LLM 安全规则的遗忘效应,这是一个不可取的结果。因此,我们提供了基于评估策略的未来工作建议,旨在凸显 VLM 的弱点,并在视觉指导调整期间考虑安全措施。
May, 2024
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性,生成的 imgJP 可被转移到各种模型中,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等,以黑盒方式进行越狱。此外,我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此,我们引入了一种基于构造的方法,将我们的方法应用于 LLM 越狱,比当前最先进的方法更高效。代码可在此处找到。警告:一些由语言模型生成的内容可能对某些读者具有冒犯性。
Feb, 2024
该研究聚焦于针对大型语言模型的越狱攻击,以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型,构建一个多模态大型语言模型(MLLM),我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS,并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比,我们的方法更加高效,因为 MLLM 比纯语言模型更容易越狱。此外,为提高越狱成功率,我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明,我们的方法在效率和有效性方面超越了当前最先进的方法。此外,我们的方法具有优越的跨类别越狱能力。
May, 2024
研究了多模态大型语言模型(MLLMs)的无害对齐问题,通过对代表性 MLLMs 的无害性能进行系统的实证分析,揭示了图像输入对 MLLMs 的对准易受攻击的弱点。在此基础上,提出了一种名为 HADES 的新型越狱方法,利用精心制作的图像隐藏和放大文本输入中的恶意意图的有害性。实验结果表明,HADES 能够有效地越狱现有的 MLLMs,其中对于 LLaVA-1.5 平均攻击成功率(ASR)为 90.26%,对于 Gemini Pro Vision 为 71.60%。我们的代码和数据将会公开发布。
Mar, 2024
本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制,并发现对抗性例子可以打破安全机制并生成有害内容。因此,我们强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。
Jun, 2023
本文研究了对抗大型多模态语言模型(MLLMs)的问题,通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性,并评估了 MLLM 对多样越狱攻击的鲁棒性,结果表明 MLLM 存在来自文本处理功能的关键脆弱性,强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。
Apr, 2024
通过引入图像通道进行有害指令注入,再使用良性文本提示诱导视觉语言模型输出违反常见人工智能安全策略的内容,本研究证明了视觉语言模型容易受到越狱攻击的漏洞,彰显出视觉与文本模态之间的新型安全对齐的必要性。
Nov, 2023
通过与领域专家合作,我们提出了一个辅助框架来简化对繁琐的破解分析过程,并设计了一个视觉分析系统,帮助用户评估模型安全性并识别模型弱点。
Apr, 2024