神经机器翻译中的回译研究
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语-法语和 WMT'16 德语-英语 基准测试上,这些模型分别获得28.1和25.2 BLEU分数,比现有方法的 BLEU 分数高出11个分数。方法在英语-乌尔都语和英语-罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018
该研究探讨了逆向翻译的不同方面,并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略,以及类似背景的选取句子的策略比随机采样的逆向翻译方法在WMT新闻翻译任务中提高了翻译质量。在德语-英语和英语-德语方向上,翻译质量分别提高了1.7和1.2 BLEU分数。
Aug, 2018
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了35 BLEU的WMT'14英德测试集上的最新记录。
Aug, 2018
本研究比较了将语言模型融合进神经机器翻译的几种方法,并提出了一种新的利用预训练语言模型得分的简单方法,使得翻译模型能够专注于源语言建模,从而在四个测试数据集上取得了BLEU值0.24至2.36的提升。
Sep, 2018
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
Mar, 2019
通过利用附加单语资源来创建合成训练数据,可以提高神经机器翻译的质量,本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点,并研究了不同地域、语言和噪音环境下翻译的影响。另外,本文还给出了低资源情况下前向和反向翻译的比较。
Nov, 2019
本文提出了使用不同的机器翻译方法进行回译来生成合成训练语料,并使用数据选择策略来优化其性能,进而提高低资源语言的机器翻译质量。结果表明,这种方法可以有效地提升机器翻译的性能。
May, 2020
利用自训练策略改进Neural Machine Translation(NMT)模型,通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型,可提高低资源下的翻译品质,提高翻译模型的BLEU值。
Jun, 2020
本文提出了一种基于元学习的算法,通过调整预先训练的 back-translation 模型来生成伪平行数据,用于训练前向翻译模型,并在 WMT 数据集和多语言翻译中实现了显著的改进。
Feb, 2021