通过强鲁棒对齐的 LLM 防御对齐破坏攻击

Sep, 2023

通过强鲁棒对齐的 LLM 防御对齐破坏攻击

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen

TL;DR最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对 RA-LLM 的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明 RA-LLM 可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近 100％降低到约 10％或更低。

Abstract

Recently, large language models (LLMs) have made significant advancements and are now widely used across various domains. Unfortunately, there has been a rising concern that LLMs can be misused to generate harmful or malicious content. Though a line of research has focused on aligning

large language models alignment-breaking attacks robustly aligned llm defense adversarial prompts

发现论文，激发创造

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

大型语言模型上的从弱到强破解

通过实验，研究发现了对齐的大型语言模型存在监狱突破漏洞，提出了一种弱到强的监狱突破攻击方法，并介绍了一种针对该攻击的防御策略。

Jan, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

MULTIVERSE: 在多样世界中揭示大型语言模型的对齐问题

我们发现大型语言模型在不同环境下存在不同程度的对齐问题，并通过构建多个上下文（称为世界）并利用相应的编译器，低成本地暴露潜在的对齐问题，从而进行大规模的对 LLM 对齐问题的研究，结果表明我们的方法在效果和效率上优于现有的破解技术。此外，我们的结果表明，现有的 LLMs 在嵌套世界和编程语言世界中存在极高的漏洞性，这暗示现有的对齐训练偏重于真实世界，对 LLMs 在各种（虚拟）世界中的潜在利用存在缺失。

Jan, 2024

打破突破：通过自我完善为 LM 防御越狱攻击重新定义

我们提出了一种自我改进的格式化方法，即使在非安全对齐的语言模型中也能实现出色的安全性，通过将我们的方法与几种防御基线进行评估，证明它是针对越狱攻击最安全的无需训练的方法。此外，我们提出了一种格式化方法，可以在更少的迭代中提高自我改进过程的效率，同时降低攻击成功率。我们还观察到，在安全任务中，非安全对齐的语言模型比安全对齐的语言模型表现更好，给出更有帮助且安全的回应。总之，我们的研究发现可以在减少计算成本的同时减少安全风险，使非安全的语言模型可以在真实世界的服务中轻松应用。

Feb, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

针对对齐语言模型的对抗攻击的基线防御

大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明，文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题：在这个领域中，哪些威胁模型实际上是有用的？基线防御技术在这个新领域中的表现如何？LLM 安全性与计算机视觉有何不同？我们对 LLM 上的领先对抗性攻击评估了几种基线防御策略，讨论了每种策略在各种可行和有效的设置中的情况。特别地，我们研究了三种防御类型：检测（基于困惑度），输入预处理（改写和重标记）和对抗训练。我们讨论了白盒和灰盒设置，并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是，我们在过滤和预处理方面获得了比其他领域（如视觉）预期的更多成功，这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。

Sep, 2023