利用合成噪音提高机器翻译的鲁棒性
本文研究了基于字符的神经机器翻译模型,并发现它们能够解决词表外的问题、学习词形变化,但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性:结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。
Nov, 2017
本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性,从而提高对拼写错误等变异的覆盖率。作者表明,通过在训练时使用一些较为简单的合成噪音,可以实现对常见噪音(例如 Wikipedia 编辑日志中的修正)的鲁棒性,同时不会降低在规范文本上的表现。
Feb, 2019
本文提出了一个用于噪声文本机器翻译的基准数据集(MTNT),包括 Reddit 上的嘈杂评论和专业翻译。作者们通过定性和定量的方法检验了该数据集中所包含的各类噪声,并证明了现有机器翻译模型在应对各种噪声方面的表现不佳,这表明 MTNT 可以为处理 MT 中的噪声文本提供一个吸引人的测试平台。
Sep, 2018
本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性,同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。
Aug, 2018
通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究,我们发现这些模型相比以往模型对各种噪声更加稳健,尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在,同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述,我们展示了对于多种类型噪声的稳健性有所增强。
Mar, 2024
通过引入自然非语义变化(NAV)概念并利用人工生成的变化对机器翻译进行微调,可提高机器翻译在困难输入(如噪声数据和边缘词语)下的性能,还发现 NAV 的鲁棒性可以跨语言进行转移,但合成扰动无法实现所有有机 NAV 数据的优点。
May, 2022
提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性,通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征,使 NMT 可以在类似的单词分布下进行训练和测试,实验结果表明,该方法在多个噪声测试集上的稳定性表现优异,并在 WMT'17 中英测试集上取得了泛化性能的提高。
Nov, 2018
本文介绍 NTT 的 WMT19 鲁棒性任务中的提交成果,并使用合成语料库、领域自适应和占位符机制等技术,大幅优于以前的基线。实验结果显示,占位符机制可以在翻译过程中临时替换包括表情符号等非标准标记,即使在处理带噪音的文本时也能提高翻译精度。
Jul, 2019