MTNT:噪声文本机器翻译测试平台
本文介绍 NTT 的 WMT19 鲁棒性任务中的提交成果,并使用合成语料库、领域自适应和占位符机制等技术,大幅优于以前的基线。实验结果显示,占位符机制可以在翻译过程中临时替换包括表情符号等非标准标记,即使在处理带噪音的文本时也能提高翻译精度。
Jul, 2019
本文研究了无监督神经机器翻译在噪声数据下的鲁棒性问题,并且提出了一种针对这种噪声数据的对抗性训练方法,通过去噪来提高无监督神经机器翻译的鲁棒性。经过实验验证,该方法在一些语言对上,显著提高了传统无监督神经机器翻译系统在嘈杂场景下的性能。
Feb, 2020
本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性,同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。
Aug, 2018
本文研究如何使强 NMT 系统适应典型 ASR 错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
该论文介绍了首个旨在提高机器翻译鲁棒性的共享任务的研究成果,共有 11 个团队提交了 23 个系统,人工评估和自动评估 (BLEU) 均显示很高的相关性,系统均有大幅度的改进,最佳系统较基准系统提高了 22.33 个 BLEU 分值。
Jun, 2019
本文研究了基于字符的神经机器翻译模型,并发现它们能够解决词表外的问题、学习词形变化,但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性:结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。
Nov, 2017