通过扩展抽象训练实现对可编程字符串转换的鲁棒性
本文利用 Interval Bound Propagation(IBP)训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型,该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率,远高于传统训练模型和数据增广训练模型的 8% 和 35%。
Sep, 2019
针对自然语言处理领域中的同义词替换攻击问题,提出了一种基于随机平滑技术的认证鲁棒性方法,能证明某些输入不能通过任何同义词替换被修改,可以应用于各种预训练模型,在 IMDB 和亚马逊文本分类任务上表现优异,创造了 BERT 系统鲁棒性认证的最佳效果。
May, 2020
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023
本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性,通过使编码器和解码器在输入和其扰动版本的情况下行为相似,进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明,该方法不仅可以显著提高强 NMT 系统的翻译品质,而且可以增强 NMT 模型的鲁棒性。
May, 2018
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023
本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程,用于 NLP 模型的训练,可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型,提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。
Sep, 2021
本文比较了几种对抗训练语言模型的不同方法,包括预训练数据增强,输入空间扰动和嵌入空间扰动,发现输入空间扰动或预训练数据增强可以提高鲁棒性,而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明,泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。
Nov, 2022
本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道,用于检测 Facebook 帖子是否请求参与(例如点赞)。在针对有意和无意的对抗文本扰动方面,CW2V 嵌入的强健性优于基于字符 ngram 的嵌入,其分类结果在扰动下的 AUC 从 0.70 降至 0.67,而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。
Feb, 2022