来自非母语者的文本的神经机器翻译
本文介绍了使用神经网络全局词汇模型和神经网络联合模型来改善基于短语的统计机器翻译系统的局限性,通过对源句子的环境信息进行更有效地利用,显著提高了语法错误纠正的准确性。
Jun, 2016
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译(NMT)模型,产生仅使用7万个训练数据令人满意的翻译结果。
Aug, 2017
该论文提出了一套适用于大多数语法错误修正(GEC)环境的模型无关方法,包括添加源端噪音,领域自适应技术,GEC特定训练目标,单语数据的迁移学习以及集成独立训练的GEC模型和语言模型。这些方法的综合效果导致比现有最优神经GEC模型更好的表现,表现优于CoNLL-2014基准测试中以前最好的神经GEC系统超过10%M2,以及JFLEG测试集中的5.9%。
Apr, 2018
本文提出采用对抗性稳定性训练来提高神经机器翻译(NMT)模型的鲁棒性,通过使编码器和解码器在输入和其扰动版本的情况下行为相似,进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明,该方法不仅可以显著提高强NMT系统的翻译品质,而且可以增强NMT模型的鲁棒性。
May, 2018
本文研究如何使强NMT系统适应典型ASR错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括ASR转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
本文提出了衡量NMT模型抗干扰性能的一些额外指标,并针对一类使用子单词规范化方法的模型进行了广泛评估,结果表明我们提出的指标揭示了使用子单词规范化方法时抗干扰性能提高的明显趋势。
May, 2020
本文提出了一种将错误校正机制引入神经机器翻译中的方法,通过使用两个流的自注意力机制,在保证预测下一个标记的同时,对前一个标记的错误信息进行更正,使用预测偏差模拟训练,并在多个数据集上进行了实验验证,证明了其在提高翻译质量方面的有效性。
Jul, 2020
本文提出了一种通过Context-Enhanced Reconstruction(CER)方法提高神经机器翻译(NMT)在噪音输入下的稳健性的方法,该方法包括通过引入人造干扰词破坏自然性来抵制噪声,并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性,并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。
Apr, 2021