研究发现,采用无标记的反向翻译方法可以有效地从大量单语数据中生成平行句子,进而提高神经机器翻译的效果。该方法能够消除标记语境的需求,并在低资源的英越和英德神经机器翻译任务上表现出比标准方法和标记方法更好的性能。
Dec, 2019
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。
Aug, 2018
通过理论和实证研究,我们确定了合成数据对回译神经机器翻译(NMT)性能的两个关键因素,即质量和重要性。基于我们的发现,我们提出了一种简单而有效的方法来生成合成数据,以更好地权衡这两个因素,从而为回译提供更好的性能。通过在 WMT14 的基准任务中运行广泛的实验,我们的回译模型显著优于标准的回译基线方法,证明了我们提出方法的有效性。
Oct, 2023
利用自训练策略改进 Neural Machine Translation(NMT)模型,通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型,可提高低资源下的翻译品质,提高翻译模型的 BLEU 值。
Jun, 2020
该研究探讨了逆向翻译的不同方面,并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略,以及类似背景的选取句子的策略比随机采样的逆向翻译方法在 WMT 新闻翻译任务中提高了翻译质量。在德语 - 英语和英语 - 德语方向上,翻译质量分别提高了 1.7 和 1.2 BLEU 分数。
通过利用附加单语资源来创建合成训练数据,可以提高神经机器翻译的质量,本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点,并研究了不同地域、语言和噪音环境下翻译的影响。另外,本文还给出了低资源情况下前向和反向翻译的比较。
Nov, 2019
本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒,提升其抗噪能力并部分缓解由此产生的精度损失。
Feb, 2019
本研究提出在跨熵优化的范畴中改进后向翻译,其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案,并在 WMT 2018 德语 - 英语新闻翻译任务上验证了我们的陈述。
Jun, 2019
本文提出了一种基于元学习的算法,通过调整预先训练的 back-translation 模型来生成伪平行数据,用于训练前向翻译模型,并在 WMT 数据集和多语言翻译中实现了显著的改进。
Feb, 2021
本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性,提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。
Oct, 2019