来自非母语者的文本的神经机器翻译
本文介绍了使用神经网络全局词汇模型和神经网络联合模型来改善基于短语的统计机器翻译系统的局限性,通过对源句子的环境信息进行更有效地利用,显著提高了语法错误纠正的准确性。
Jun, 2016
本文研究如何使强 NMT 系统适应典型 ASR 错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性,通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征,使 NMT 可以在类似的单词分布下进行训练和测试,实验结果表明,该方法在多个噪声测试集上的稳定性表现优异,并在 WMT'17 中英测试集上取得了泛化性能的提高。
Nov, 2018
Google 发布的 GNMT 神经机器翻译系统采用 LSTM 深度学习网络,使用 attention 机制和残差连接,借助词元素 (wordpieces) 将单词划分为子单元,提高了稀有单词处理能力与整体系统精度。
Sep, 2016
本文研究了基于字符的神经机器翻译模型,并发现它们能够解决词表外的问题、学习词形变化,但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性:结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。
Nov, 2017
本文将基于统计机器翻译和神经机器翻译的自动语法纠错方法相结合,形成一种新的系统,这个混合系统在 CoNLL-2014 和 JFLEG 基准测试上取得了最新的最佳结果。我们的分析显示,所创建的系统比迄今为止报告的任何其他 GEC 系统更接近达到人类水平的性能。
Apr, 2018
本文提出了一种将错误校正机制引入神经机器翻译中的方法,通过使用两个流的自注意力机制,在保证预测下一个标记的同时,对前一个标记的错误信息进行更正,使用预测偏差模拟训练,并在多个数据集上进行了实验验证,证明了其在提高翻译质量方面的有效性。
Jul, 2020