通过基于良心的对齐框架抵御对抗性攻击

Nov, 2023

通过基于良心的对齐框架抵御对抗性攻击

Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework

Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang...

TL;DR通过引入 Bergeron 框架，我们可以增强大型语言模型对抗攻击的能力，改善模型的对齐性和稳健性，而无需昂贵的微调，从而为开源和黑箱语言模型提供辅助和加强对现有对齐训练的效果。

Abstract

Modern large language models (LLMs) can still generate responses that may not be aligned with human expectations or values. While many weight-based alignment methods have been proposed, many of them still leave models vulnerable to attacks when used on their own. To help mitigate this

large language models alignment methods bergeron adversarial attacks robustness

发现论文，激发创造

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

针对对齐语言模型的对抗攻击的基线防御

大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明，文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题：在这个领域中，哪些威胁模型实际上是有用的？基线防御技术在这个新领域中的表现如何？LLM 安全性与计算机视觉有何不同？我们对 LLM 上的领先对抗性攻击评估了几种基线防御策略，讨论了每种策略在各种可行和有效的设置中的情况。特别地，我们研究了三种防御类型：检测（基于困惑度），输入预处理（改写和重标记）和对抗训练。我们讨论了白盒和灰盒设置，并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是，我们在过滤和预处理方面获得了比其他领域（如视觉）预期的更多成功，这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。

Sep, 2023

通过强鲁棒对齐的 LLM 防御对齐破坏攻击

最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对 RA-LLM 的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明 RA-LLM 可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近 100％降低到约 10％或更低。

Sep, 2023

基于贝叶斯说服的高效无模型对齐

通过使用较小的模型，引入一种模型不可知且轻量级的贝叶斯说服对齐框架，为对齐黑盒大模型提供高效方法。在使用该框架进行训练后，希望我们的工作能够提供从贝叶斯说服的视角重新审视对齐框架的初步步骤，并取得优于先前模型的性能提升。

May, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023

大型语言模型哨兵：通过 LLM 代理推进对抗鲁棒性

我们引入了一种名为 LLAMOS 的新型防御技术，通过净化输入到目标大型语言模型之前的对抗文本示例，以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分：a) 代理指示，可以模拟新的代理进行对抗防御，通过最小限度地更改字符来保持句子的原始含义，并防御攻击；b) 防御指导，提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验，我们的方法可以有效抵御对抗性攻击，从而提高对抗鲁棒性。

May, 2024

辩证统一：解决 LLM 的 3H 与安全威胁的张力

利用人工智能反馈，提出了一种新颖的方案：辩证对齐（Dialectical Alignment）模型，用于调整大语言模型在不同外部证据冲突下的内部状态，以抵御被污染的数据攻击，提高系统的安全性。

Mar, 2024