通用对抗触发器并非通用

Apr, 2024

Universal Adversarial Triggers Are Not Universal

Nicholas Meade, Arkil Patel, Siva Reddy

TL;DR针对通过优化模型找到的诱发不安全响应的标记序列，即对抗触发器，我们研究了它们的转移能力、鲁棒性以及优化方法对模型的影响，发现对齐的偏好优化模型（APO）极难被破解，然而对齐的微调模型（AFT）对对抗触发器非常敏感，并且大部分针对 AFT 模型优化的触发器还可以泛化到来自五个不同领域的新的不安全指令，突显了它们的脆弱性。因此，我们的工作强调了对对齐语言模型进行更全面安全评估的必要性。

Abstract

Recent work has developed optimization procedures to find token sequences, called adversarial triggers, which can elicit unsafe responses from aligned language models. These triggers are believed to be universally transferable, i.e., a trigger optimized on one model can jailbreak other

adversarial triggers transferability robustness preference optimization fine-tuning

发现论文，激发创造

通用对抗触发器针对自然语言处理的攻击与分析

本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers)，使用梯度导向的搜索过程寻找跨任务短小的触发序列，并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下，对模型的全局行为也提供了一种分析方法。

Aug, 2019

使用自然触发器的通用文本对抗攻击

利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术，对现代文本分类器进行了对抗攻击，生成的词组比先前模型更接近自然的英语短语，并能在被加入到输入文本后成功混淆分类器，并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到，并推动防御技术的发展。

May, 2020

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

生成具有标签内聚力和良好形式的对抗性主张

本文主要研究如何生成对于事实核查系统具有对抗性的攻击，使其保持着地面事实的意义和语义的有效性，为此采用了 HotFlip 攻击算法与条件语言模型相结合的方法，生成出了一批具有方向性和语义有效性的攻击。

Sep, 2020

基于查询的对抗性提示生成

通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例，我们改进了之前的工作，并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。

Feb, 2024

探究基于提示学习范式的普遍性漏洞

本文研究了 Prompt-based learning 模式的普适漏洞，发现加入特定的触发器可以完全控制和降低其性能，并提出了缓解攻击方法的潜在解决方案。

Apr, 2022

视觉语言预训练模型的普适对抗扰动

我们的研究通过提出新的黑盒方法生成有效且可转移的通用对抗扰动，以揭示 VLP 模型对于图像模态特定模式的不可感知扰动是否普遍敏感，进一步研究了增强 UAPs 的有效性和可转移性的方法，达到了有效且可传递的通用对抗攻击。

May, 2024

对抗调整：为 LLMs 防御越狱攻击

通过优化包含对抗性提示及其安全响应的数据集，我们提出了一个两阶段的对抗调整框架，用于增强大型语言模型在防御能力方面的广义性，实验证明了我们方法的优越性，并展示了它作为可传输防御机制的潜力。

Jun, 2024

AutoDAN: 大型语言模型的自动可解释的对抗攻击

安全性对齐、大型语言模型（LLMs）、手动越狱攻击、对抗性攻击、可解释对抗性攻击。

Oct, 2023

使用生成模型的可传递通用对抗扰动

本文提出了一种针对深度网络易受对抗扰动攻击的问题的方法，使用预训练网络生成图像无关对抗扰动（UAPs），并通过在源模型的第一层仅关注对抗能量的损失，提高了 UAPs 的传递性，并在实验中展示了该方法的优越性。

Oct, 2020