使用词替代密码破解专有大型语言模型

Feb, 2024

使用词替代密码破解专有大型语言模型

Jailbreaking Proprietary Large Language Models using Word Substitution Cipher

Divij Handa, Advait Chirmule, Bimal Gajera, Chitta Baral

TL;DR大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Abstract

large language models (LLMs) are aligned to moral and ethical guidelines but remain susceptible to creative prompts called jailbreak that can bypass the alignment process. However, most jailbreaking prompts conta

large language models jailbreak cryptographic techniques unsafe words attack success rate

发现论文，激发创造

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

通过提示工程实现 ChatGPT 越狱：一项实证研究

本研究研究了 Large Language Models（LLMs）中存在的内容限制和潜在误用的挑战，并调查了与破解 LLMs 相关的三个关键问题：不同提示类型的数量、提示对抗 LLMs 限制的有效性以及 ChatGPT 对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布，识别了 10 种不同模式和三种破解提示类别。此外，研究利用 8120 个问题的数据集，评估了 ChatGPT 版本 3.5 和 4.0 中破解提示的能力，最终发现提示可以在 40 个用例场景中始终逃脱限制。该研究强调了提示结构在破解 LLMs 中的重要性，并讨论了生成和防止鲁棒破解提示的挑战。

May, 2023

如何请求决定一切：针对越狱攻击的简单黑盒方法

通过使用以 ChatGPT 为目标的简单黑盒方法，本研究有效地生成越过伦理规定的提示，突破了现有方法的复杂性和计算成本的限制，该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式，该研究结果表明，创建有效的越狱提示比以前认为的更简单，并且黑盒越狱攻击构成了更严重的安全威胁。

Jan, 2024

现在做任何事情”：对大型语言模型中的自由研究提示进行特征化和评估

通过对 wild 中的 jailbreak prompts 进行第一次测量研究，我们发现了 jailbreak prompts 的独特特征以及其攻击策略，并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害，这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。

Aug, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

不要听我说：理解和探索大型语言模型的越狱提示

通过系统化研究和用户调查，我们发现生成式 AI 技术中的大型语言模型 (LLMs) 存在滥用、绕过安全限制的风险，尤其是使用 jailbreak prompts 进行潜在有害内容的生成，为了应对这一问题，我们开发了一个基于人工智能的系统来自动化产生 jailbreak prompts 的过程。

Mar, 2024

针对多模式大型语言模型的越狱攻击

该研究聚焦于多模态大型语言模型（MLLMs）的越狱攻击，旨在引导 MLLMs 生成令人反感的响应来对抗危险用户查询。提出了一种基于最大似然的算法，可以寻找 “图像越狱提示”（imgJP），在多个未知提示和图像上实现对 MLLMs 的越狱。我们的方法具有很强的模型可迁移性，生成的 imgJP 可被转移到各种模型中，包括 MiniGPT-v2、LLaVA、InstructBLIP 和 mPLUG-Owl2 等，以黑盒方式进行越狱。此外，我们揭示了 MLLM 越狱和 LLM 越狱之间的联系。因此，我们引入了一种基于构造的方法，将我们的方法应用于 LLM 越狱，比当前最先进的方法更高效。代码可在此处找到。警告：一些由语言模型生成的内容可能对某些读者具有冒犯性。

Feb, 2024