使用投影梯度下降攻击大规模语言模型

Feb, 2024

使用投影梯度下降攻击大规模语言模型

Attacking Large Language Models with Projected Gradient Descent

Simon Geisler, Tom Wollschläger, M. H. I. Abdalla, Johannes Gasteiger, Stephan Günnemann

TL;DR通过控制连续放松引入的误差，我们改进了投影梯度下降（PGD）对连续放松输入提示的攻击方法，实现了与现有离散优化相同的毁灭性攻击结果，PGD 对 LLMs 的速度比最新的离散优化方法快了一个数量级。

Abstract

Current llm alignment methods are readily broken through specifically crafted adversarial prompts. While crafting adversarial prompts usin

llm alignment methods adversarial prompts discrete optimization quantitative analyses projected gradient descent

发现论文，激发创造

在连续攻击中，基于线性语言模型的高效对抗训练

通过在 LLM 的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性，我们提出了一种快速的对抗训练算法 (C-AdvUL)，通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒；我们还引入了 C-AdvIPO，这是一种对抗的 IPO 变体，不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明，这两个算法显著提高了 LLM 对离散攻击的鲁棒性，并保持了效用。这些结果表明，对连续扰动的鲁棒性可以外推到离散的威胁模型，为大规模对抗训练算法的鲁棒对齐 LLM 提供了一条路径。

May, 2024

集成对抗攻击的高效项目梯度下降

本文介绍了对抗性样本攻击中的两种方法：PGD 方法和 C&W 方法，针对集成模型的攻击，主张使用改进型 PGD 方法达到更高的攻击效率。

Jun, 2019

针对安全定向 LLM 的改进对抗样本生成

通过借鉴转移式攻击的思想，结合渐变式对抗性提示生成过程，我们改进了自动生成的对抗性示例以攻击白盒大语言模型，取得了显著的性能提升，同时也提出了新的见解和适当的方法组合。

May, 2024

TextGrad: 基于梯度驱动优化的 NLP 鲁棒性评估进展

在 NLP 领域缺乏第一阶梯度的鲁棒性评价框架，本文提出 TextGrad，一种新的基于梯度驱动的攻击生成器，支持高准确性和高质量的文本鲁棒性评估，并通过实验验证了其在攻击生成和防御等方面的有效性。

Dec, 2022

基于目标引导的生成式提示注入攻击大型语言模型

通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略（G2PIA），我们最大化纯文本和对抗文本之间的 KL 散度，从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。

Apr, 2024

减少梯度逼近的对抗训练成本

采用梯度逼近的对抗训练方法能够减少建立稳健模型的成本，而对于常见数据集如 MNIST、CIFAR-10 和 CIFAR-100，该方法在训练时间上节省了高达 60% 的时间，并且在模型测试准确性上没有明显损失。

Sep, 2023

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

分布式对抗攻击

本文提出了一种解决最优对抗数据分布的方法 —— 分布式对抗攻击（DAA），通过在潜在数据分布空间上进行优化，使攻击样本具有更好的泛化性，实验表明其在对抗训练的模型上的攻击效果优于其他对抗攻击方法。

Aug, 2018

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

PDPGD: 原始 - 对偶近端梯度下降对抗性攻击

研究了基于优化问题的对抗攻击，使用双重变量来最小化对抗性噪声与规则化惩罚，针对非光滑 $p$- 范数进行极值点下降攻击，实验表明，比当前最先进的攻击方法在 MNIST、CIFAR-10 和受限制的 ImageNet 数据集上都优异表现。

Jun, 2021