打破突破：通过自我完善为 LM 防御越狱攻击重新定义

Feb, 2024

打破突破：通过自我完善为 LM 防御越狱攻击重新定义

Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement

Heegyu Kim, Sehyun Yuk, Hyunsouk Cho

TL;DR我们提出了一种自我改进的格式化方法，即使在非安全对齐的语言模型中也能实现出色的安全性，通过将我们的方法与几种防御基线进行评估，证明它是针对越狱攻击最安全的无需训练的方法。此外，我们提出了一种格式化方法，可以在更少的迭代中提高自我改进过程的效率，同时降低攻击成功率。我们还观察到，在安全任务中，非安全对齐的语言模型比安全对齐的语言模型表现更好，给出更有帮助且安全的回应。总之，我们的研究发现可以在减少计算成本的同时减少安全风险，使非安全的语言模型可以在真实世界的服务中轻松应用。

Abstract

Caution: This paper includes offensive words that could potentially cause unpleasantness. language models (LMs) are vulnerable to exploitation for adversarial misuse. Training LMs for safety alignment is extensiv

language models safety alignment jailbreak attacks self-refine with formatting non-safety-aligned lms

发现论文，激发创造

自护：赋予 LLM 保护自身能力

利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题，包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测，实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。

Oct, 2023

对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式

本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。

Jun, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击

这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架，通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明，SelfDefend 可使 GPT-3.5 的攻击成功率下降 8.97-95.74％（平均 60％），而对正常查询影响微乎其微。同时，通过数据精馏方法调整专用的开源防御模型进一步提高防御的鲁棒性并降低成本。

Jun, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

修剪以增加对齐 LLMs 的防越狱能力，无需微调

通过修剪大型语言模型（LLM）的参数，可以显著提高其对 Jailbreaking 提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由 225 个有害任务组成的精选数据集，并将其插入到 10 个不同的 Jailbreaking 提示中，结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后，我们的实验揭示了著名的聊天模型（如 LLaMA-2 Chat，Vicuna 和 Mistral Instruct）对 Jailbreaking 攻击非常容易受到攻击，某些类别的成功率接近 70-100％。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。

Jan, 2024

潜在破解：用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱 Prompts 数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的 LLMs 不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

通过强鲁棒对齐的 LLM 防御对齐破坏攻击

最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对 RA-LLM 的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明 RA-LLM 可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近 100％降低到约 10％或更低。

Sep, 2023

合并提升自我审查对抗越狱攻击

通过融合批评模型和自我批评能力，将大型语言模型（LLM）微调于经过净化的合成数据之上，以提高其对抗性提示的自我批评能力和鲁棒性，从而显著降低攻击者的攻击成功率，为抵御越狱攻击提供了一种有前景的防御机制。

Jun, 2024