神经机器翻译鲁棒性的句子边界增强
本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性,同时提出了一套用于测试神经机器翻译在处理语法错误上的JFLEG语法纠错语料库的西班牙语翻译。
Aug, 2018
提出了一种基于自适应计算时间算法的动态分词算法,该算法可通过端到端的训练驱动,并可在不同的分词级别之间进行自由导航。在四个翻译任务的评估中,发现模型更喜欢在几乎字符级别上运行,从一种新的角度支持了纯字符级NMT模型。
Oct, 2018
本文研究如何使强NMT系统适应典型ASR错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括ASR转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
本文提出了衡量NMT模型抗干扰性能的一些额外指标,并针对一类使用子单词规范化方法的模型进行了广泛评估,结果表明我们提出的指标揭示了使用子单词规范化方法时抗干扰性能提高的明显趋势。
May, 2020
本文提出了一种新的方式用于神经机器翻译的模型训练,通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中,本方法表现显著优于现有方法。
Oct, 2020
本文提出了一种通过Context-Enhanced Reconstruction(CER)方法提高神经机器翻译(NMT)在噪音输入下的稳健性的方法,该方法包括通过引入人造干扰词破坏自然性来抵制噪声,并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性,并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。
Apr, 2021