针对基于 Transformer 的文本分类器的块状稀疏对抗攻击

Mar, 2022

针对基于 Transformer 的文本分类器的块状稀疏对抗攻击

Block-Sparse Adversarial Attack to Fool Transformer-Based Text Classifiers

Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard

TL;DR本文提出了一种基于梯度的对抗攻击方法，应用于基于 Transformer 的文本分类器中，实验结果表明，该攻击能够在保留句子语义的同时，对不同数据集上的 GPT-2 分类器准确率进行有效降低，通过对优化问题进行块稀疏约束，实现了对抗向量的小幅扰动。

Abstract

Recently, it has been shown that, in spite of the significant performance of deep neural networks in different fields, those are vulnerable to adversarial examples. In this paper, we propose a gradient-based adversarial attack against →

adversarial attack transformer-based text classifiers block-sparse perturbation gradient projection semantics preservation

发现论文，激发创造

基于梯度的对抗攻击：针对文本转换器

本文提出了首个基于梯度的通用攻击转换器模型算法，通过搜索由连续矩阵参数化的对抗性样本分布实现梯度优化，并在各种自然语言任务中证明其白盒攻击表现的最先进性。此外，本文还展示使用对对抗分布进行采样实现的强大黑盒转移攻击匹配或超越现有方法，而仅需要硬标签输出。

Apr, 2021

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

可解释的文本对抗训练

利用稀疏投影梯度下降法，提出了一种新的对于文本可解释对抗样本的生成方法，该方法将输入扰动限制在距离最近的具有高余弦相似度的单词嵌入方向上，并忽略每个句子水平上规范小于某个阈值的单词嵌入扰动，实验证明，该方法相比最先进的方法在提高可解释性和可能性（通过平均每个单词的非凡度进行评估）方面具有改进，同时在训练性能方面几乎没有损失。

May, 2019

语义对抗攻击：参数转换欺骗深度分类器

本文通过对参数条件生成模型的范围空间进行对抗性损失的优化，提出了一种新颖的方法来生成 “语义” 对抗性示例，并在面部图像上展示了其攻击的效果。

Apr, 2019

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

BERT-ATTACK: 使用 BERT 对抗 BERT 的对抗攻击

本文提出了使用 BERT 预训练模型的高质量有效的方法 BERT-Attack，用于生成对抗样本并在对下游任务的深度神经模型进行攻击。在成功率和扰动百分比方面，我们的方法优于最先进的攻击策略，而生成的对抗样本则流畅且在语义上保留，且计算成本低，可用于大规模产生。

Apr, 2020

单字更改足矣：为文本分类器设计攻击与防御

本文研究文本分类中单词扰动漏洞的问题，并提出了评估分类器鲁棒性、利用单词扰动漏洞的 SP-Attack 攻击方法以及通过数据增强提高分类器鲁棒性的 SP-Defense 方法。实验结果表明 SP-Defense 能将攻击成功率下降 30.4% 和 21.2%，而提高鲁棒性达到 14.6% 和 13.9%。同时，SP-Defense 还能降低多词扰动攻击成功率。

Jan, 2024

针对基于同义词替换的文本攻击的快速梯度投影方法中的对抗训练

本文提出了一种快速文本对抗攻击方法，称为基于同义词替换的快速梯度投影方法（FGPM），并将其与对抗性训练相结合，提出了一种文本防御方法，称为增强型 Logit 配对的对抗性训练（ATFL），实验证明，ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。

Aug, 2020

使用梯度方法生成对抗文本

本文提出了一种将梯度攻击方法应用于文本领域的框架，通过在嵌入空间中搜索对抗样本来解决离散输入空间中的困难，并使用 Word Mover's Distance（WMD）量化对抗性文本的质量，实验证明该框架可以成功生成高质量的对抗性文本。

Jan, 2018