PARDEN，你能重复一遍吗？通过重复防御越狱

ICMLMay, 2024

PARDEN，你能重复一遍吗？通过重复防御越狱

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

Ziyang Zhang, Qizhen Zhang, Jakob Foerster

TL;DR本文提出了一种名为 PARDEN 的方法，通过要求模型重复自己的输出来检测和减少 Large Language Models（LLMs）的安全风险，该方法在监测入狱风险方面明显优于现有方法。

Abstract

large language models (LLMs) have shown success in many natural language processing tasks. Despite rigorous safety alignment processes, supposedly safety-aligned LLMs like Llama 2 and Claude 2 are still susceptible to jailbreaks, leading to security risks and abuse of the models. One o

large language models safeguard jailbreak detection parden domain shift

发现论文，激发创造

二十次查询中破解黑盒大型语言模型

大型语言模型对人类价值观的符合日益受到关注。我们提出了 Prompt Automatic Iterative Refinement (PAIR) 算法，用于生成黑盒访问的语义越狱，以理解固有弱点并防止未来滥用。PAIR 支持自动生成越狱攻击目标模型的黑盒查询，相对于现有算法，往往只需少于二十次查询即可成功越狱。同时，PAIR 在开源和闭源的 GPT-3.5/4、Vicuna 和 PaLM-2 等 LLM 上取得了有竞争力的越狱成功率和可传递性。

Oct, 2023

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了 ReNeLLM 框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

AutoDAN：生成对齐的大型语言模型上隐蔽越狱提示

通过精心设计的分层遗传算法，AutoDAN 能够自动生成隐秘的越狱提示，不仅自动化了过程同时保持语义的意义，并且在跨模型转移性和交叉样本普适性方面表现出优越的攻击力，比基线方法更好。此外，我们还将 AutoDAN 与基于困惑度的防御方法进行比较，并展示了 AutoDAN 能够有效地绕过它们。

Oct, 2023

通过伪装和重构在少量查询中解封大型语言模型的方法

通过识别安全微调中的偏差漏洞并设计一种称为 DRA（伪装和重构攻击）的黑盒越狱方法，我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果，并展示了最先进的越狱成功率和攻击效率，特别是在 LLM 聊天机器人 GPT-4 上，DRA 拥有 90％的攻击成功率。

Feb, 2024

勤奋的鲍勃通过及时对抗调整反击越狱

我们提出了一种名为 Prompt Adversarial Tuning (PAT) 的方法来训练一个防御控制机制，将其作为用户提示的前缀来实施我们的防御策略，该方法在黑盒和白盒设置中表现有效，在几乎不影响操作效率的情况下，将高级攻击的成功率降低到几乎为 0，同时仍然保持对简单问题的良性回答率为 80%。我们的研究在 LLM 安全领域可能为未来的探索开辟新的视角。

Feb, 2024

修剪以增加对齐 LLMs 的防越狱能力，无需微调

通过修剪大型语言模型（LLM）的参数，可以显著提高其对 Jailbreaking 提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由 225 个有害任务组成的精选数据集，并将其插入到 10 个不同的 Jailbreaking 提示中，结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后，我们的实验揭示了著名的聊天模型（如 LLaMA-2 Chat，Vicuna 和 Mistral Instruct）对 Jailbreaking 攻击非常容易受到攻击，某些类别的成功率接近 70-100％。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。

Jan, 2024

潜在破解：用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱 Prompts 数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的 LLMs 不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024