我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景,通过各种类型的字符级和单词级扰动方法来模拟这种情况,发现语言模型对输入扰动非常敏感,即使引入了很小的变化,其性能也会下降,需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。
Aug, 2021
本文研究基于深度学习的文本分类模型(CNN、LSTM 和 BERT)在面对有意义但与最终性能无关的输入扰动(如标点符号和停用词)时的表现,发现包括 BERT 在内的这类模型都很敏感,特别是对于输入扰动的删除尤其受影响。
Jan, 2022
探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法,通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。
Nov, 2023
本文提出了衡量 NMT 模型抗干扰性能的一些额外指标,并针对一类使用子单词规范化方法的模型进行了广泛评估,结果表明我们提出的指标揭示了使用子单词规范化方法时抗干扰性能提高的明显趋势。
May, 2020
本文对三种基于 Transformer 的预训练语言模型(BERT、GPT-2 和 T5)进行了鲁棒性测试,并比较了它们在多种输入扰动下的性能表现。同时,使用 CKA 和 STIR 两个度量衡量了预训练模型与微调模型在各层上的表示变化。其中,GPT-2 表现出更好的鲁棒性。尽管这些模型都具有广泛的鲁棒性,但丢失名词、动词或改变字符是最具影响力的。这项研究为流行的基于 Transformer 的模型的扰动特异性弱点提供了宝贵的见解。
May, 2023
本文研究了 NLP 在含有误差的单词形式下的稳健性,考虑了不同类型和组合的误差分布、不同模型和基本单元对 NLP 任务(如形态标注和机器翻译)的影响,以及神经网络在此类应用中的鲁棒性。
Apr, 2017
探究数据增广方法在 NLP 中的效果和可泛化性,通过三个二进制文本匹配分类任务的大规模实验发现,随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响,具体取决于模型是否足够训练原始训练例子,但这与是否同时或分别应用五个随机文本编辑操作无关,研究强烈暗示随机文本扰动的效果任务特定,而不是普遍积极的。
Sep, 2022
对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题,本研究通过对 378 个人的实验调查,发现现有文本攻击在需要人类参与的实际场景中是不切实际的,从而得出应该把人类的感知度作为文本攻击的首要成功标准。
本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击,结果表明,输入语句及其语义的微小改变可以在很大程度上扰乱解释方法,达到 86% 的成功率。
Jun, 2022
本文研究了大型语言模型在现实场景中自然语言描述的变化对于代码生成的影响,并提出了一个自动化框架 NLPerturbator 来对不同类别的描述进行扰动,发现扰动后的描述可以显著降低代码生成的性能。研究强调了提高大型语言模型对于现实场景中描述变化的鲁棒性的重要性,以及构建描述时的细致性。
Jun, 2024