AutoBreach: 通用和自适应的越狱技术与高效的文字指导优化
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024
本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。
May, 2023
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
Jan, 2024
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
大型语言模型容易受到称为 Jailbreak 的创新提示的影响,本文提出使用加密技术对越狱提示进行编码,实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42%,此外,我们还讨论了这些模型的过度防御性。
Feb, 2024
本文研究了对抗大型多模态语言模型(MLLMs)的问题,通过引入 JailBreakV-28K 评估 LLM 越狱技术对 MLLM 的可迁移性,并评估了 MLLM 对多样越狱攻击的鲁棒性,结果表明 MLLM 存在来自文本处理功能的关键脆弱性,强调了未来在文本和图像输入方面解决 MLLM 对齐漏洞的迫切性。
Apr, 2024
通过研究语言模型监管的方法和攻击,本文提出一种自动破解监管的方法,即引入语意防火墙概念并提供三种技术实现方式,从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性,为未来研究提供了启示。
Aug, 2023
提出了三个指标来评估语言模型的越狱,分别是安全违规、信息性和相对真实性,并展示了这些指标与不同恶意用户的目标之间的相关性,通过预处理响应扩展了自然语言生成评估方法来计算这些指标,对来自三个恶意目的数据集和三个越狱系统产生的基准数据集进行了评估,与现有的越狱评估方法相比,实验证明我们的多方面评估方法在平均 F1 得分上提高了 17%,我们的发现促使我们摆脱越狱问题的二元观点,引入更全面的评估来确保语言模型的安全性。
Apr, 2024
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,并且黑盒越狱攻击构成了更严重的安全威胁。
Jan, 2024
该研究聚焦于多模态大型语言模型(MLLMs)的越狱攻击,旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法,可以寻找 “图像越狱提示”(imgJP),在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性,生成的 imgJP 可被转移到各种模型中,包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等,以黑盒方式进行越狱。此外,我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此,我们引入了一种基于构造的方法,将我们的方法应用于 LLM 越狱,比当前最先进的方法更高效。代码可在此处找到。警告:一些由语言模型生成的内容可能对某些读者具有冒犯性。
Feb, 2024