LLMs 在实践中可以自我防御破解：一篇展望性论文

Feb, 2024

LLMs 在实践中可以自我防御破解：一篇展望性论文

LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper

Daoyuan Wu, Shuai Wang, Yang Liu, Ning Liu

TL;DRJailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models. This paper proposes a lightweight yet practical defense called SELFDEFEND, which can defend against all existing jailbreak attacks with minimal delay for jailbreak prompts and negligible delay for normal user prompts.

Abstract

jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models (llms).

jailbreaking adversarial attack selfdefend jailbreak attacks llms

发现论文，激发创造

SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击

这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架，通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明，SelfDefend 可使 GPT-3.5 的攻击成功率下降 8.97-95.74％（平均 60％），而对正常查询影响微乎其微。同时，通过数据精馏方法调整专用的开源防御模型进一步提高防御的鲁棒性并降低成本。

Jun, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

欺骗 LLMs 反抗：理解、分析和预防越狱

本研究提出了形式主义和已知（和可能的）越狱攻击分类，并在开源和商业 LLM（如 GPT 3.5，OPT，BLOOM 和 FLAN-T5-xxl）上进行了现有越狱方法及其有效性的调查；我们进一步提出了一组有限的提示守卫，并讨论了其对已知攻击类型的有效性。

May, 2023

自护：赋予 LLM 保护自身能力

利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题，包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测，实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。

Oct, 2023

面向 LLM 的破解攻击的理解：表示空间分析

通过研究大型语言模型中的有害和无害提示在表示空间中的行为，探讨成功越狱攻击的内在特性，并利用隐藏表示引入现有越狱攻击的目标，通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。

Jun, 2024

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

打破突破：通过自我完善为 LM 防御越狱攻击重新定义

我们提出了一种自我改进的格式化方法，即使在非安全对齐的语言模型中也能实现出色的安全性，通过将我们的方法与几种防御基线进行评估，证明它是针对越狱攻击最安全的无需训练的方法。此外，我们提出了一种格式化方法，可以在更少的迭代中提高自我改进过程的效率，同时降低攻击成功率。我们还观察到，在安全任务中，非安全对齐的语言模型比安全对齐的语言模型表现更好，给出更有帮助且安全的回应。总之，我们的研究发现可以在减少计算成本的同时减少安全风险，使非安全的语言模型可以在真实世界的服务中轻松应用。

Feb, 2024

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024