无标签回译

Dec, 2019

Tag-less Back-Translation

Idris Abdulmumin, Bashir Shehu Galadanci, Aliyu Garba

TL;DR研究发现，采用无标记的反向翻译方法可以有效地从大量单语数据中生成平行句子，进而提高神经机器翻译的效果。该方法能够消除标记语境的需求，并在低资源的英越和英德神经机器翻译任务上表现出比标准方法和标记方法更好的性能。

Abstract

An effective method to generate a large number of parallel sentences for training improved neural machine translation (NMT) systems is the use of the back-translations of the target-side monolingual data. The sta

neural machine translation back-translation domain adaptation gates parallel sentences

发现论文，激发创造

规模理解后向翻译

使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果，发现使用采样或噪声束搜索的反向翻译方法效果最好，并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据，同时也比较了它们与真实的平行语料库的效果，并研究了不同领域对它们的影响。最终，将这种方法扩展到数亿条单语数据，获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。

Aug, 2018

标记后翻译

提出源端输入带标记的后向翻译方法，以替代传统的加噪声方法，实验证明该方法在英罗马尼亚语翻译中表现优于传统方法，且在英德语翻译中达到同等水平，重新定义了该领域的最佳表现。

Jun, 2019

双向神经机器翻译与合成平行数据

本论文提出一种结合了回译和多语言神经机器翻译技术的新技术，通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果，并且能显著降低培训和部署成本。

May, 2018

神经机器翻译中的单语数据使用：一项系统研究

本文对神经机器翻译的数据生成进行了系统研究，比较了不同的单语数据使用方法和多个数据生成过程，并介绍了一些便宜易实现的新数据模拟技术。研究发现，通过回译技术生成人工平行数据非常有效，并给出了原因解释。

Mar, 2019

利用自我训练增强低资源神经机器翻译的反向翻译

利用自训练策略改进 Neural Machine Translation（NMT）模型，通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型，可提高低资源下的翻译品质，提高翻译模型的 BLEU 值。

Jun, 2020

神经机器翻译中的回译研究

本研究探讨了使用回译数据对 NMT 模型性能的影响，通过逐步增加回译数据来训练一系列以德语为源语言，以英语为目标语言的 NMT 系统，并分析了相应的翻译绩效。

Apr, 2018

提取和编辑：自监督神经机器翻译的备选方案

提出并实现了一种基于抽取 - 编辑方法的无监督神经机器翻译，与以往仅使用错误积累法的基准性方法相比，在多个语言对和领域（包括低资源语言）的实验中表现更加优异。

Apr, 2019

定向困难词汇的神经机器翻译反向抽样

该研究探讨了逆向翻译的不同方面，并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略，以及类似背景的选取句子的策略比随机采样的逆向翻译方法在 WMT 新闻翻译任务中提高了翻译质量。在德语 - 英语和英语 - 德语方向上，翻译质量分别提高了 1.7 和 1.2 BLEU 分数。

Aug, 2018

低资源机器翻译中的语法差异处理

本文提出一种简单但有效的方法，即将目标语句重新排序以匹配源语序，并将其作为另外一种训练时的监督信号，从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。

Aug, 2019

元背译

本文提出了一种基于元学习的算法，通过调整预先训练的 back-translation 模型来生成伪平行数据，用于训练前向翻译模型，并在 WMT 数据集和多语言翻译中实现了显著的改进。

Feb, 2021