LLMs 能够深入检测复杂恶意查询吗？通过混淆意图进行越狱的框架

May, 2024

LLMs 能够深入检测复杂恶意查询吗？通过混淆意图进行越狱的框架

Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent

Shang Shang, Xinqiang Zhao, Zhongjiang Yao, Yepeng Yao, Liya Su...

TL;DR提出了一种名为 IntentObfuscator 的黑盒越狱攻击方法，通过模糊用户提示背后的真实意图，使 LLMs 绕过其内置的内容安全措施，有效地规避了恶意意图检测；通过在 ChatGPT-3.5 等多个模型上的测试，证明了 IntentObfuscator 方法在多种敏感内容类型上的成功率，进而对加强 LLM 内容安全框架的 “红队” 策略产生了实质性的影响。

Abstract

To demonstrate and address the underlying maliciousness, we propose a theoretical hypothesis and analytical approach, and introduce a new black-box jailbreak attack methodology named IntentObfuscator, exploiting this identified flaw by obfuscating the true intentions behind user prompt

maliciousness black-box jailbreak attack intentobfuscator method restricted content llm content security frameworks

发现论文，激发创造

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

通过模糊输入对大型语言模型进行越狱

通过采用 ObscurePrompt 方法，从模糊的文本入手，并利用强大的 LLM 进行迭代转换，增强攻击的稳健性，从而提高对 LLM 的破解效果，并改进先前的方法，以增强 LLM 的对齐性能。

Jun, 2024

如何请求决定一切：针对越狱攻击的简单黑盒方法

通过使用以 ChatGPT 为目标的简单黑盒方法，本研究有效地生成越过伦理规定的提示，突破了现有方法的复杂性和计算成本的限制，该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式，该研究结果表明，创建有效的越狱提示比以前认为的更简单，并且黑盒越狱攻击构成了更严重的安全威胁。

Jan, 2024

CodeChameleon：为大型语言模型破解定制的加密框架

通过引入个性化加密策略的新型越狱框架 CodeChameleon，本研究研究了对大型语言模型（LLMs）的安全和伦理协议进行绕过的敌对滥用，提出了基于意图安全识别和响应生成的安全机制假设。我们通过将任务转化为代码完成格式，使用户能够使用个性化加密函数对查询进行加密，以避开意图安全识别阶段。为保证响应生成功能，我们在指令中嵌入了一个解密函数，允许 LLM 成功解密和执行加密的查询。在 7 个 LLM 上进行了广泛的实验，取得了最先进的平均攻击成功率（ASR），其中在 GPT-4-1106 上达到了 86.6％的 ASR。

Feb, 2024

WordGame：通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱

通过同时在查询和响应中进行模糊处理，我们提出了 WordGame 攻击，用于越过当前领先的专有和开源大型语言模型，包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施，从而破坏其对安全对齐的保护。

May, 2024

用 LLM 玩猜谜游戏：通过隐含暗示的间接越狱攻击

通过提供一些关于原始恶意查询的提示，间接绕过 LLM 的防御策略并获得恶意响应的间接越狱攻击方法 Puzzler，通过采用防御姿态通过 LLMs 收集原始恶意查询的线索，相较于基准方案，Puzzler 在闭源 LLMs 上实现了 96.6% 的查询成功率，比基准方案高出 57.9% 至 82.7%，同时对抗最新的越狱检测方法时，Puzzler 较基准方案更具逃避检测的有效性。

Feb, 2024

通过密码字符对大型语言模型进行越狱以对抗审核管控

引入 JAMBench 作为一个有害行为基准测试，通过 160 个手工制作的指令来触发和评估适度保护措施；提出了 JAM 方法，通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器，攻击适度保护措施。经过对四个 LLMs 的广泛实验表明，JAM 比基准模型实现更高的越狱成功率（约 19.88 倍）和更低的过滤率（约 1/6 倍）。

May, 2024

引入视觉模态的高效 LLM 越狱

该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比，我们的方法更加高效，因为 MLLM 比纯语言模型更容易越狱。此外，为提高越狱成功率，我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明，我们的方法在效率和有效性方面超越了当前最先进的方法。此外，我们的方法具有优越的跨类别越狱能力。

May, 2024

通过逻辑链注入，在良性叙述中隐藏恶意目标：破解大型语言模型

该论文提出了一种新型越狱攻击方法，既能欺骗语言模型，也能欺骗人类，通过将恶意目标伪装成一系列善意叙述，并将叙述分布到相关无疑的文章中，从而在真实中隐藏谎言，通过注入恶意意图来欺骗。

Apr, 2024