通过区间传播实现对符号替换的可验证鲁棒性
本文利用Interval Bound Propagation(IBP)训练了第一个能够抵御包括词语替换在内的label-preserving转换攻击的NLP模型,该模型在情感分析与自然语言推理任务上取得了75%的对抗准确率,远高于传统训练模型和数据增广训练模型的8%和35%。
Sep, 2019
本文提出一种名为RobEn的框架,实现NLP系统对抗攻击的鲁棒性,相较于之前的方法具有更好的稳定性和保真度,在六项任务中,RobEn与BERT的结合在防御一系列错别字攻击中可达到71.3%的平均准确度,而之前的方法只能达到35.3%。
May, 2020
针对自然语言处理领域中的同义词替换攻击问题,提出了一种基于随机平滑技术的认证鲁棒性方法,能证明某些输入不能通过任何同义词替换被修改,可以应用于各种预训练模型,在 IMDB 和亚马逊文本分类任务上表现优异,创造了 BERT 系统鲁棒性认证的最佳效果。
May, 2020
本文提出了一种随机遮挡的可证明鲁棒防御方法,对于 AGNEWS 数据集上五个词,SST2 数据集上两个词的任意扰动分类可以获得超过50%的证明鲁棒性,并在多个数据集上明显优于最近提出的防御方法。
May, 2021
本文提出了一种新颖的 extit{Adversarial Sparse Convex Combination} (ASCC) 方法,将单词替换攻击空间建模为一个凸包,并利用正则化项来实现对实际替换的扰动,从而更好地对齐离散文本空间。基于ASCC方法,进一步提出ASCC-defense,它利用ASCC生成最坏情况扰动,并结合对抗性训练以实现鲁棒性,实验结果表明,在多个模型架构和多种攻击下,ASCC-defense在情感分析和自然语言推理这两个主要NLP任务中表现优于目前的最新技术,同时本文还展示了一种新的防御方式,该防御方式将我们的鲁棒性训练的单词向量插入到一个正常训练的模型中,从而提高其鲁棒性。
Jul, 2021
本文调查了针对BERT的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现96%至99%的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT比攻击研究所说的要更加健壮。
Sep, 2021
本文提出了一种基于随机平滑的泛化认证鲁棒性框架Text-CRS,用于自然语言处理中的文本,并对单词级对抗操作进行了证明,实现了显著的准确性提升。
Jul, 2023
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023