面向对齐语言模型的通用和可迁移对抗攻击

Jul, 2023

面向对齐语言模型的通用和可迁移对抗攻击

Universal and Transferable Adversarial Attacks on Aligned Language Models

Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson

TL;DR通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Abstract

Because "out-of-the-box" large language models are capable of generating a great deal of objectionable content, recent work has focused on aligning these models in an attempt to prevent undesirable generation. While there has been some success at circumventing these measures -- so-call

adversarial attacks aligned language models objectionable content automatic prompt generation transferable adversarial prompts

发现论文，激发创造

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

针对对齐语言模型的对抗攻击的基线防御

大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明，文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题：在这个领域中，哪些威胁模型实际上是有用的？基线防御技术在这个新领域中的表现如何？LLM 安全性与计算机视觉有何不同？我们对 LLM 上的领先对抗性攻击评估了几种基线防御策略，讨论了每种策略在各种可行和有效的设置中的情况。特别地，我们研究了三种防御类型：检测（基于困惑度），输入预处理（改写和重标记）和对抗训练。我们讨论了白盒和灰盒设置，并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是，我们在过滤和预处理方面获得了比其他领域（如视觉）预期的更多成功，这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。

Sep, 2023

通过强鲁棒对齐的 LLM 防御对齐破坏攻击

最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对 RA-LLM 的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明 RA-LLM 可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近 100％降低到约 10％或更低。

Sep, 2023

通过利用生成技术实现对开源 LLMs 的灾难性越狱

通过改变文本生成策略，我们提出一种新的攻击方法（生成利用攻击），成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%；我们还提出了一种有效的对齐方法，可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。

Oct, 2023

通用黑盒破解大型语言模型

介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法，通过优化通用对抗提示，发现模型的限制和漏洞，从而破坏模型的对齐性，提供诊断工具以评估和增强大型语言模型与人类意图的一致性。

Sep, 2023

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

神经网络是否被对抗性对齐？

本篇研究探索大型的自然语言处理模型是否能够抵御用户故意输入的对抗性样本（adversarial examples）的攻击，进一步研究多模型模型在敌对攻击下的表现。结果发现，虽然当前的 NLP 攻击在某种程度上是无效的，但多模型模型很容易受到攻击，需要更好的 NLP 攻击方法来对抗对恶意输入的敌对控制。

Jun, 2023

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023