本文利用 Interval Bound Propagation(IBP)训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型,该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率,远高于传统训练模型和数据增广训练模型的 8% 和 35%。
Sep, 2019
本文调查了针对 BERT 的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现 96% 至 99% 的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT 比攻击研究所说的要更加健壮。
Sep, 2021
大规模语言模型在很多语言任务上取得了最先进的性能。然而,它们在针对对抗性语言示例时失败了,这些句子被精心优化以欺骗语言模型,但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果,从而修复许多语言对抗攻击,而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明,我们的方法能够修复超过 65% 的对抗性语言攻击。
Oct, 2023
通过揭示语言处理模型对特定语言能力的可解释的输入扰动具有的共同不变性来比较两个自然语言处理模型,并研究模型的改变如何影响多个明确定义的语言能力,并且大型语言模型具有多种不变性可能是最近大型语言模型取得成功的关键原因之一。
Nov, 2023
本文通过研究发现,预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时,预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下,我们提出使用多任务学习(MTL)来提高泛化能力。我们在自然语言推断和释义识别上的实验表明,MTL 可显着提高在具有挑战性的情况下的性能,而不会影响分布内性能。此外,我们表明,MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。
Jul, 2020
针对自然语言处理领域中的同义词替换攻击问题,提出了一种基于随机平滑技术的认证鲁棒性方法,能证明某些输入不能通过任何同义词替换被修改,可以应用于各种预训练模型,在 IMDB 和亚马逊文本分类任务上表现优异,创造了 BERT 系统鲁棒性认证的最佳效果。
May, 2020
本文章探讨了,如何通过给上下文动态变化的词嵌入模型增加同义词的语境来提高模型的稳定性,提出了一种基于改造的方法并在各种句子分类和语言推理任务中进行了实验,结果表明该方法可以有效提高模型性能。
本文提出了一个名为 ParaphraseSampler 的新样本采样技术,通过进行句子级别的改写,应用了一种新的修改标准 —— 句子级威胁模型,并在 6 个数据集上进行了实验。结果表明,许多重写的句子都被分类器误分类,并且我们的 ParaphraseSampler 比基线攻击成功率更高。
Oct, 2020
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
本文探讨了在自然语言处理中的重要任务 —— 释义识别,发现现有模型在推断时往往受到分布转移的影响。为了克服这种影响,我们提出使用两个分开的模型进行训练,并使用基于困惑度的指标确定在推断时应该给予负模型多少权重,实验证明这种方法取得了很好的效果。
Oct, 2022