基于梯度的对抗攻击:针对文本转换器
本文提出了一种基于梯度的对抗攻击方法,应用于基于 Transformer 的文本分类器中,实验结果表明,该攻击能够在保留句子语义的同时,对不同数据集上的 GPT-2 分类器准确率进行有效降低,通过对优化问题进行块稀疏约束,实现了对抗向量的小幅扰动。
Mar, 2022
通过在 token 概率的连续空间中搜索对抗样本、在量化 - 补偿循环中进行多步量化,我们提出了一种新的基于梯度的攻击 transformer-based 语言模型的算法,实验表明该方法在各种 NLP 任务中明显优于其他方法。
Feb, 2023
本文提出了一种将梯度攻击方法应用于文本领域的框架,通过在嵌入空间中搜索对抗样本来解决离散输入空间中的困难,并使用 Word Mover's Distance(WMD)量化对抗性文本的质量,实验证明该框架可以成功生成高质量的对抗性文本。
Jan, 2018
在 NLP 领域缺乏第一阶梯度的鲁棒性评价框架,本文提出 TextGrad,一种新的基于梯度驱动的攻击生成器,支持高准确性和高质量的文本鲁棒性评估,并通过实验验证了其在攻击生成和防御等方面的有效性。
Dec, 2022
该研究首次针对 Transformer 的语言模型提出了梯度攻击问题,并提出了一个梯度攻击算法(TAG),该算法在 reconstructing training data 方面的效率得到了较大提高,表现出在 CoLA 数据集上攻击梯度,可以获得高达 90% 的数据,并且在大型模型、小型字典大小和小输入长度上具有更强的对手优势,旨在为 Transformer 的 NLP 模型中的隐私泄漏问题提供解决方案。
Mar, 2021
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023
本文提出了一种新的黑盒对抗攻击方法,通过使用预训练模型学习低维嵌入,然后在此嵌入空间内进行高效搜索,从而攻击未知目标网络。该方法能够生成具有高级语义模式的对抗性扰动,易于迁移,可大大提高黑盒对抗攻击的查询效率。作者在 MNIST、ImageNet 和 Google Cloud Vision API 上进行评估,并在 CIFAR10 和 ImageNet 上攻击对抗性防御网络,取得了良好的攻击效果。
Nov, 2019
提出了一种新的基于梯度估计的黑盒攻击方法,攻击者可以查询目标模型的类概率,无需使用可转移性。该攻击在 MNIST 和 CIFAR-10 数据集上的攻击成功率均超过 100%,同时成功攻击了 Clarifai 的实时图像分类器和最新防御方法。
Dec, 2017
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018