无监督机器翻译的快速反向翻译

EMNLPDec, 2023

Quick Back-Translation for Unsupervised Machine Translation

Benjamin Brimacombe, Jiawei Zhou

TL;DR利用 Transformer 和反向翻译算法，以及引入 Quick Back-Translation (QBT) 的改进方法，提高无监督机器翻译的数据通量、利用率及训练效率。

Abstract

The field of unsupervised machine translation has seen significant advancement from the marriage of the transformer and the back-translation

unsupervised machine translation transformer back-translation quick back-translation training efficiency

发现论文，激发创造

反向翻译框架中翻译模型的端到端训练

本篇论文提出了一种基于交叉学习的半监督学习算法，其中使用了背译和变分自编码器以及分类重参技巧来提高机器翻译的质量。

Feb, 2022

利用课程学习提升无监督神经机器翻译的性能

通过提出一种课程学习方法，将从多个粒度发现语料库中的质量，逐渐利用从易到难的数据，通过平衡不同部分的质量得分，推动模型关注更高质量的数据，从而显著提高无监督神经机器翻译的翻译性能.

Sep, 2021

利用自我训练增强低资源神经机器翻译的反向翻译

利用自训练策略改进 Neural Machine Translation（NMT）模型，通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型，可提高低资源下的翻译品质，提高翻译模型的 BLEU 值。

Jun, 2020

神经机器翻译中预训练和反向翻译之间的互补性

本研究探讨了预训练和回译方法对神经机器翻译的性能提升效果，发现预训练对编码器模块的贡献更大，回译对解码器模块的性能提升更为明显，两种方法相互补充，使得在 WMT16 英 - 罗马尼亚语和英 - 俄语翻译语料库中取得了最先进的翻译效果。

Oct, 2021

规模理解后向翻译

使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果，发现使用采样或噪声束搜索的反向翻译方法效果最好，并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据，同时也比较了它们与真实的平行语料库的效果，并研究了不同领域对它们的影响。最终，将这种方法扩展到数亿条单语数据，获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。

Aug, 2018

半自回归神经机器翻译

本论文提出一种用于快速序列生成的新型模型：半自回归 Transformer (SAT)，该模型在保持全局自回归属性的同时减轻了本地自回归属性，从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明，SAT 实现了翻译质量和解码速度之间的良好平衡。

Aug, 2018

无监督生成式语言模型神经机器翻译

通过使用大型预训练语言模型的零 - shot 翻译能力，结合少样本放大、去噪和回译等方法，成功地实现了最新的无监督神经机器翻译模型，在 WMT14 英法数据集上获得了 BLEU 42.1 的最高性能表现。

Oct, 2021

无需文本的语音转文本反向翻译

采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation（BT4ST）方法，可有效解决资源不足情境下进行端到端语音转文本翻译的问题。

May, 2023

跨模型反向翻译蒸馏用于无监督机器翻译

本文介绍一种新的 UMT 框架组成部分叫做跨模型反向传递蒸馏（CBD）来促进数据多样性，与其他变体相比，CBD 更加有效

Jun, 2020

关于后向翻译的合成数据

通过理论和实证研究，我们确定了合成数据对回译神经机器翻译（NMT）性能的两个关键因素，即质量和重要性。基于我们的发现，我们提出了一种简单而有效的方法来生成合成数据，以更好地权衡这两个因素，从而为回译提供更好的性能。通过在 WMT14 的基准任务中运行广泛的实验，我们的回译模型显著优于标准的回译基线方法，证明了我们提出方法的有效性。

Oct, 2023