通过自对抗攻击和系统提示实施对 GPT-4V 的越狱
基于自动生成的破解提示,我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率,同时降低时间成本;我们的研究揭示了当前防御方法在保护大型语言模型方面的不足,并从提示执行优先级的角度进行了详细的分析和讨论。
Nov, 2023
通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害,这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。
Aug, 2023
本研究研究了 Large Language Models(LLMs)中存在的内容限制和潜在误用的挑战,并调查了与破解 LLMs 相关的三个关键问题:不同提示类型的数量、提示对抗 LLMs 限制的有效性以及 ChatGPT 对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布,识别了 10 种不同模式和三种破解提示类别。此外,研究利用 8120 个问题的数据集,评估了 ChatGPT 版本 3.5 和 4.0 中破解提示的能力,最终发现提示可以在 40 个用例场景中始终逃脱限制。该研究强调了提示结构在破解 LLMs 中的重要性,并讨论了生成和防止鲁棒破解提示的挑战。
May, 2023
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,并且黑盒越狱攻击构成了更严重的安全威胁。
Jan, 2024
GPT-4o 的最新多模态大型语言模型(MLLM)在音频、视觉和文本领域的推出进一步模糊了虚构与现实之间的界限,但其声音模式的引入也可能导致新的攻击面。本文是首次系统评估针对 GPT-4o 声音模式的越狱攻击,我们通过虚构叙事方式(背景、角色和情节)提出了一种称为 VoiceJailbreak 的新型声音越狱攻击方法,该方法通过生成简单而有效的越狱提示,在六种禁止情境下将攻击成功率(ASR)从 0.033 提高到 0.778。我们还进行了大量实验,探索了交互步骤、虚构写作的关键元素以及不同语言对 VoiceJailbreak 的影响,并通过高级虚构写作技术进一步提升攻击性能。希望我们的研究能帮助研究界构建更安全、更规范的 MLLMs。
May, 2024
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性,生成的 imgJP 可被转移到各种模型中,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等,以黑盒方式进行越狱。此外,我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此,我们引入了一种基于构造的方法,将我们的方法应用于 LLM 越狱,比当前最先进的方法更高效。代码可在此处找到。警告:一些由语言模型生成的内容可能对某些读者具有冒犯性。
Feb, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023