针对基于同义词替换的文本攻击的快速梯度投影方法中的对抗训练

AAAIAug, 2020

针对基于同义词替换的文本攻击的快速梯度投影方法中的对抗训练

Adversarial Training with Fast Gradient Projection Method against Synonym Substitution based Text Attacks

Xiaosen Wang, Yichen Yang, Yihe Deng, Kun He

TL;DR本文提出了一种快速文本对抗攻击方法，称为基于同义词替换的快速梯度投影方法（FGPM），并将其与对抗性训练相结合，提出了一种文本防御方法，称为增强型 Logit 配对的对抗性训练（ATFL），实验证明，ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。

Abstract

adversarial training is the most empirically successful approach in improving the robustness of deep neural networks for image classification.For text classification, however, existing synonym substitution based adversarial attacks are effective but not efficient to be incorporated int

adversarial training text classification text adversarial attack fast gradient projection method adversarial training with fgpm

发现论文，激发创造

抵御文本对抗攻击的快速对抗训练

通过在嵌入空间进行单步扰动生成和扰动初始化的研究，我们提出了一种快速对抗训练（FAT）方法，以改善模型在无同义词感知情况下的鲁棒性，实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。

Jan, 2024

使用梯度方法生成对抗文本

本文提出了一种将梯度攻击方法应用于文本领域的框架，通过在嵌入空间中搜索对抗样本来解决离散输入空间中的困难，并使用 Word Mover's Distance（WMD）量化对抗性文本的质量，实验证明该框架可以成功生成高质量的对抗性文本。

Jan, 2018

神经检索的 FGSM 对抗训练研究

本文针对神经检索模型易受打字错误、分布偏移和恶意攻击的问题，研究了对抗训练作为提高模型鲁棒性的可能解决方案之一。研究中采用了两种主要类型的 BERT-based 神经检索模型，并表明最简单的对抗训练技术 Fast Gradient Sign Method (FGSM) 可以提高模型的鲁棒性和效果。

Jan, 2023

快速优于免费：再探对抗训练

通过使用快速梯度符号方法（FGSM）来作为对抗样本的构造方法，使得对抗训练的代价不比标准训练更高，而且 FGSM 对抗训练与 PGD 对抗训练效果相当。最后，我们还研究了 FGSM 对抗训练的 “灾难性过拟合” 失败模式。

Jan, 2020

用频率引导的词替换技术检测文本对抗样本

本文提出了基于词频的敌对样本检测方法（FGWS），能够通过对置换词和相应替换词之间的词频差异进行检测，实验结果表明，FGWS 能够在 SST-2 和 IMDb 情感数据集上准确检测到敌对样本，并相比最近提出的扰动辨别框架的表现提升了 13.0% F1。

Apr, 2020

图像分类模型的对抗攻击：分析与防御

本文介绍了对基于卷积神经网络（CNN）的图像分类模型进行对抗攻击的概念，并探讨了一种被称为 FGSM（快速梯度符号方法）的著名对抗攻击方法对图像分类模型性能的负面影响。对三种预训练图像分类器 CNN 结构（ResNet-101，AlexNet 和 RegNetY 400MF）使用 ImageNet 数据集中的随机选择图像进行了模拟 FGSM 攻击，并计算了在攻击存在与不存在时分类器的准确性，以展示攻击对模型性能的有害影响。最后，提出了一种基于修改的防御蒸馏方法来防御 FGSM 攻击，并给出了详尽的实验结果用于验证所提出方案。

Dec, 2023

探究快速对抗性训练

本文通过实验研究快速对抗训练的行为并显示其成功的关键在于从过度拟合弱攻击中恢复。我们进一步扩展了这一发现以改善快速对抗训练，展示了与强对抗训练相比更优异的鲁棒性准确性以及更短的训练时间。

Jun, 2020

针对基于 Transformer 的文本分类器的块状稀疏对抗攻击

本文提出了一种基于梯度的对抗攻击方法，应用于基于 Transformer 的文本分类器中，实验结果表明，该攻击能够在保留句子语义的同时，对不同数据集上的 GPT-2 分类器准确率进行有效降低，通过对优化问题进行块稀疏约束，实现了对抗向量的小幅扰动。

Mar, 2022

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

TextGrad: 基于梯度驱动优化的 NLP 鲁棒性评估进展

在 NLP 领域缺乏第一阶梯度的鲁棒性评价框架，本文提出 TextGrad，一种新的基于梯度驱动的攻击生成器，支持高准确性和高质量的文本鲁棒性评估，并通过实验验证了其在攻击生成和防御等方面的有效性。

Dec, 2022