神经机器翻译中的单语数据使用:一项系统研究
通过将单语数据与自动背景翻译配对,我们未改变神经网络结构,使用目标语单语训练数据进行神经机器翻译(NMT)模型的训练,并在多项任务上取得最新的最优结果(最高+2.8-3.7 BLEU),并证明了使用领域单语和平行数据进行微调,对IWSLT 15任务英德翻译有实质性的改善。
Nov, 2015
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语-法语和 WMT'16 德语-英语 基准测试上,这些模型分别获得28.1和25.2 BLEU分数,比现有方法的 BLEU 分数高出11个分数。方法在英语-乌尔都语和英语-罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了35 BLEU的WMT'14英德测试集上的最新记录。
Aug, 2018
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019
通过利用附加单语资源来创建合成训练数据,可以提高神经机器翻译的质量,本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点,并研究了不同地域、语言和噪音环境下翻译的影响。另外,本文还给出了低资源情况下前向和反向翻译的比较。
Nov, 2019
本文提出了使用不同的机器翻译方法进行回译来生成合成训练语料,并使用数据选择策略来优化其性能,进而提高低资源语言的机器翻译质量。结果表明,这种方法可以有效地提升机器翻译的性能。
May, 2020
通过实验研究了多种语言机器翻译在不同数据条件和模型尺度下,去噪自编码器和回译技术对多种语言机器翻译的影响、以及单语数据在多种语言机器翻译中的作用和数据规模对机器翻译的影响等问题。结果发现单语数据总体有益于机器翻译,但在小型模型中对领域不匹配,BT对相似的平行,单语和测试数据来源是有益的,但在其他情况下会有不利影响,DAE相对于以前报告的效果不如。规模永远是关键。
May, 2023
无监督神经机器翻译中的实时反向翻译与多语言预训练是主要方法,该论文通过人工语言的实验,发现词汇、句法和语义属性并不能充分解释反向翻译成功的原因,但是语义信号能通过反向翻译改进两种语言的对齐,推测多语言间存在平行的丰富语义依赖,这证明了无监督机器翻译的成功并非分析性的保证,并希望能够确定哪些共同性可用于无监督、跨语言工具的开发。
Mar, 2024