通过双模式对抗启示破解视觉语言模型
本文提出了一种针对视觉语言模型的新型越狱攻击方法,通过替换原始文本标题为恶意越狱提示,来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响,我们设计了两个指标来量化攻击的成功率和隐秘性,提供了一个用于测量攻击效果的基准。通过与基准方法进行比较,我们证明了我们的攻击方法的有效性。
Mar, 2024
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性,生成的 imgJP 可被转移到各种模型中,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等,以黑盒方式进行越狱。此外,我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此,我们引入了一种基于构造的方法,将我们的方法应用于 LLM 越狱,比当前最先进的方法更高效。代码可在此处找到。警告:一些由语言模型生成的内容可能对某些读者具有冒犯性。
Feb, 2024
通过对大规模视觉语言模型的攻击,我们提出了一种综合性的策略,该策略同时攻击文本和图像模态,以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明,我们的通用攻击策略可以有效地越狱 MiniGPT-4,成功率达到 96%,突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。
May, 2024
本文研究了对抗大型多模态语言模型(MLLMs)的问题,通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性,并评估了 MLLM 对多样越狱攻击的鲁棒性,结果表明 MLLM 存在来自文本处理功能的关键脆弱性,强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。
Apr, 2024
该研究聚焦于针对大型语言模型的越狱攻击,以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型,构建一个多模态大型语言模型(MLLM),我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS,并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比,我们的方法更加高效,因为 MLLM 比纯语言模型更容易越狱。此外,为提高越狱成功率,我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明,我们的方法在效率和有效性方面超越了当前最先进的方法。此外,我们的方法具有优越的跨类别越狱能力。
May, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过与领域专家合作,我们提出了一个辅助框架来简化对繁琐的破解分析过程,并设计了一个视觉分析系统,帮助用户评估模型安全性并识别模型弱点。
Apr, 2024
本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制,并发现对抗性例子可以打破安全机制并生成有害内容。因此,我们强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。
Jun, 2023
通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP(自我对抗攻击系统提示)方法进行监狱破解,本研究发现了 Multimodal Large Language Models(MLLMs)的潜在安全风险并提出了相应的防御方法,以显著降低监狱破解的成功率。
Nov, 2023
通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害,这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。
Aug, 2023