基于梯度的对抗攻击：针对文本转换器

Apr, 2021

基于梯度的对抗攻击：针对文本转换器

Gradient-based Adversarial Attacks against Text Transformers

Chuan Guo, Alexandre Sablayrolles, Hervé Jégou, Douwe Kiela

TL;DR本文提出了首个基于梯度的通用攻击转换器模型算法，通过搜索由连续矩阵参数化的对抗性样本分布实现梯度优化，并在各种自然语言任务中证明其白盒攻击表现的最先进性。此外，本文还展示使用对对抗分布进行采样实现的强大黑盒转移攻击匹配或超越现有方法，而仅需要硬标签输出。

Abstract

We propose the first general-purpose gradient-based attack against transformer models. Instead of searching for a single adversarial example, we search for a distribution of →

gradient-based attack transformer models adversarial examples optimization natural language tasks

发现论文，激发创造

针对基于 Transformer 的文本分类器的块状稀疏对抗攻击

本文提出了一种基于梯度的对抗攻击方法，应用于基于 Transformer 的文本分类器中，实验结果表明，该攻击能够在保留句子语义的同时，对不同数据集上的 GPT-2 分类器准确率进行有效降低，通过对优化问题进行块稀疏约束，实现了对抗向量的小幅扰动。

Mar, 2022

分步损失远走高飞：用多步量化进行对抗文本攻击

通过在 token 概率的连续空间中搜索对抗样本、在量化 - 补偿循环中进行多步量化，我们提出了一种新的基于梯度的攻击 transformer-based 语言模型的算法，实验表明该方法在各种 NLP 任务中明显优于其他方法。

Feb, 2023

使用梯度方法生成对抗文本

本文提出了一种将梯度攻击方法应用于文本领域的框架，通过在嵌入空间中搜索对抗样本来解决离散输入空间中的困难，并使用 Word Mover's Distance（WMD）量化对抗性文本的质量，实验证明该框架可以成功生成高质量的对抗性文本。

Jan, 2018

TextGrad: 基于梯度驱动优化的 NLP 鲁棒性评估进展

在 NLP 领域缺乏第一阶梯度的鲁棒性评价框架，本文提出 TextGrad，一种新的基于梯度驱动的攻击生成器，支持高准确性和高质量的文本鲁棒性评估，并通过实验验证了其在攻击生成和防御等方面的有效性。

Dec, 2022

基于 Transformer 的语言模型的梯度攻击

该研究首次针对 Transformer 的语言模型提出了梯度攻击问题，并提出了一个梯度攻击算法（TAG），该算法在 reconstructing training data 方面的效率得到了较大提高，表现出在 CoLA 数据集上攻击梯度，可以获得高达 90% 的数据，并且在大型模型、小型字典大小和小输入长度上具有更强的对手优势，旨在为 Transformer 的 NLP 模型中的隐私泄漏问题提供解决方案。

Mar, 2021

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

基于可转移模型嵌入的黑盒对抗攻击

本文提出了一种新的黑盒对抗攻击方法，通过使用预训练模型学习低维嵌入，然后在此嵌入空间内进行高效搜索，从而攻击未知目标网络。该方法能够生成具有高级语义模式的对抗性扰动，易于迁移，可大大提高黑盒对抗攻击的查询效率。作者在 MNIST、ImageNet 和 Google Cloud Vision API 上进行评估，并在 CIFAR10 和 ImageNet 上攻击对抗性防御网络，取得了良好的攻击效果。

Nov, 2019

探索对深度神经网络的黑箱攻击空间

提出了一种新的基于梯度估计的黑盒攻击方法，攻击者可以查询目标模型的类概率，无需使用可转移性。该攻击在 MNIST 和 CIFAR-10 数据集上的攻击成功率均超过 100％，同时成功攻击了 Clarifai 的实时图像分类器和最新防御方法。

Dec, 2017

关于字符级神经机器翻译的对抗样本

本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Jun, 2018