用 LLM 玩猜谜游戏：通过隐含暗示的间接越狱攻击

Feb, 2024

用 LLM 玩猜谜游戏：通过隐含暗示的间接越狱攻击

Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues

Zhiyuan Chang, Mingyang Li, Yi Liu, Junjie Wang, Qing Wang...

TL;DR通过提供一些关于原始恶意查询的提示，间接绕过 LLM 的防御策略并获得恶意响应的间接越狱攻击方法 Puzzler，通过采用防御姿态通过 LLMs 收集原始恶意查询的线索，相较于基准方案，Puzzler 在闭源 LLMs 上实现了 96.6% 的查询成功率，比基准方案高出 57.9% 至 82.7%，同时对抗最新的越狱检测方法时，Puzzler 较基准方案更具逃避检测的有效性。

Abstract

With the development of llms, the security threats of llms are getting more and more attention. Numerous jailbreak attacks have been propo

llms jailbreak attacks puzzler defense strategy malicious query

发现论文，激发创造

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

LLMs 能够深入检测复杂恶意查询吗？通过混淆意图进行越狱的框架

提出了一种名为 IntentObfuscator 的黑盒越狱攻击方法，通过模糊用户提示背后的真实意图，使 LLMs 绕过其内置的内容安全措施，有效地规避了恶意意图检测；通过在 ChatGPT-3.5 等多个模型上的测试，证明了 IntentObfuscator 方法在多种敏感内容类型上的成功率，进而对加强 LLM 内容安全框架的 “红队” 策略产生了实质性的影响。

May, 2024

WordGame：通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱

通过同时在查询和响应中进行模糊处理，我们提出了 WordGame 攻击，用于越过当前领先的专有和开源大型语言模型，包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施，从而破坏其对安全对齐的保护。

May, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击

这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架，通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明，SelfDefend 可使 GPT-3.5 的攻击成功率下降 8.97-95.74％（平均 60％），而对正常查询影响微乎其微。同时，通过数据精馏方法调整专用的开源防御模型进一步提高防御的鲁棒性并降低成本。

Jun, 2024

技术秘籍：LLM 破解攻击基准测试

对大型语言模型中所存在的破解攻击进行评估，并提供一套基准测试框架来推动对防御增强型大型语言模型的攻击的标准化评估。

Jun, 2024

LLMs 在实践中可以自我防御破解：一篇展望性论文

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.

Feb, 2024

亚毒问题：探索 LIM 在越狱尝试中的态度转变

通过设计和分析敏感问题，揭示了一个更有效的在 LLMs 中识别漏洞的方法，旨在推进 LLM 的安全，这不仅挑战了现有的越狱方法学，而且加强了 LLMs 对潜在攻击的防范。

Apr, 2024

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023