神经机器翻译对输入扰动的鲁棒性评估
本文研究了神经机器翻译在代码生成中的鲁棒性检验方法和评价指标,提出了一组针对性的扰动和度量方式以验证模型的稳健性。通过初步的实验评估,得出了哪种扰动最影响模型以及对未来研究方向的有用见解。
Mar, 2022
本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性,通过使编码器和解码器在输入和其扰动版本的情况下行为相似,进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明,该方法不仅可以显著提高强 NMT 系统的翻译品质,而且可以增强 NMT 模型的鲁棒性。
May, 2018
我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景,通过各种类型的字符级和单词级扰动方法来模拟这种情况,发现语言模型对输入扰动非常敏感,即使引入了很小的变化,其性能也会下降,需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。
Aug, 2021
本文提出了一种通过 Context-Enhanced Reconstruction(CER)方法提高神经机器翻译(NMT)在噪音输入下的稳健性的方法,该方法包括通过引入人造干扰词破坏自然性来抵制噪声,并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性,并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。
Apr, 2021
提出了一种改善神经机器翻译模型鲁棒性的方法,该方法包含两个部分:通过对抗性源样本攻击翻译模型,以及通过对抗性目标输入来防御翻译模型,以提高其对抗性源输入的鲁棒性,并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明,在标准的干净基准测试中,我们的方法可以取得显著的改进($2.8$ 和 $1.6$ BLEU 分数),同时在噪声数据上表现出更高的鲁棒性。
Jun, 2019
本文研究了 NLP 在含有误差的单词形式下的稳健性,考虑了不同类型和组合的误差分布、不同模型和基本单元对 NLP 任务(如形态标注和机器翻译)的影响,以及神经网络在此类应用中的鲁棒性。
Apr, 2017
通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究,我们发现这些模型相比以往模型对各种噪声更加稳健,尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在,同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述,我们展示了对于多种类型噪声的稳健性有所增强。
Mar, 2024
研究现代自然语言处理模型中对于不同的输入扰动如何表现更差,进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。
Oct, 2021
提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性,通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征,使 NMT 可以在类似的单词分布下进行训练和测试,实验结果表明,该方法在多个噪声测试集上的稳定性表现优异,并在 WMT'17 中英测试集上取得了泛化性能的提高。
Nov, 2018