针对基于 Transformer 的文本分类器的块状稀疏对抗攻击
本文提出了首个基于梯度的通用攻击转换器模型算法,通过搜索由连续矩阵参数化的对抗性样本分布实现梯度优化,并在各种自然语言任务中证明其白盒攻击表现的最先进性。此外,本文还展示使用对对抗分布进行采样实现的强大黑盒转移攻击匹配或超越现有方法,而仅需要硬标签输出。
Apr, 2021
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
利用稀疏投影梯度下降法,提出了一种新的对于文本可解释对抗样本的生成方法,该方法将输入扰动限制在距离最近的具有高余弦相似度的单词嵌入方向上,并忽略每个句子水平上规范小于某个阈值的单词嵌入扰动,实验证明,该方法相比最先进的方法在提高可解释性和可能性(通过平均每个单词的非凡度进行评估)方面具有改进,同时在训练性能方面几乎没有损失。
May, 2019
本文提出了一种新的对抗攻击策略,旨在找到与原始文本相似度极高的对抗文本,同时引入最小扰动;实验结果表明,与现有攻击方法相比,我们的方法在四个基准数据集上的成功率更高,扰动率更低。
Nov, 2022
本文提出了使用 BERT 预训练模型的高质量有效的方法 BERT-Attack,用于生成对抗样本并在对下游任务的深度神经模型进行攻击。在成功率和扰动百分比方面,我们的方法优于最先进的攻击策略,而生成的对抗样本则流畅且在语义上保留,且计算成本低,可用于大规模产生。
Apr, 2020
本文研究文本分类中单词扰动漏洞的问题,并提出了评估分类器鲁棒性、利用单词扰动漏洞的 SP-Attack 攻击方法以及通过数据增强提高分类器鲁棒性的 SP-Defense 方法。实验结果表明 SP-Defense 能将攻击成功率下降 30.4% 和 21.2%,而提高鲁棒性达到 14.6% 和 13.9%。同时,SP-Defense 还能降低多词扰动攻击成功率。
Jan, 2024
本文提出了一种快速文本对抗攻击方法,称为基于同义词替换的快速梯度投影方法(FGPM),并将其与对抗性训练相结合,提出了一种文本防御方法,称为增强型 Logit 配对的对抗性训练(ATFL),实验证明,ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。
Aug, 2020
本文提出了一种将梯度攻击方法应用于文本领域的框架,通过在嵌入空间中搜索对抗样本来解决离散输入空间中的困难,并使用 Word Mover's Distance(WMD)量化对抗性文本的质量,实验证明该框架可以成功生成高质量的对抗性文本。
Jan, 2018