无监督机器翻译的快速反向翻译
通过提出一种课程学习方法,将从多个粒度发现语料库中的质量,逐渐利用从易到难的数据,通过平衡不同部分的质量得分,推动模型关注更高质量的数据,从而显著提高无监督神经机器翻译的翻译性能.
Sep, 2021
利用自训练策略改进 Neural Machine Translation(NMT)模型,通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型,可提高低资源下的翻译品质,提高翻译模型的 BLEU 值。
Jun, 2020
本研究探讨了预训练和回译方法对神经机器翻译的性能提升效果,发现预训练对编码器模块的贡献更大,回译对解码器模块的性能提升更为明显,两种方法相互补充,使得在 WMT16 英 - 罗马尼亚语和英 - 俄语翻译语料库中取得了最先进的翻译效果。
Oct, 2021
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。
Aug, 2018
本论文提出一种用于快速序列生成的新型模型:半自回归 Transformer (SAT),该模型在保持全局自回归属性的同时减轻了本地自回归属性,从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明,SAT 实现了翻译质量和解码速度之间的良好平衡。
Aug, 2018
通过使用大型预训练语言模型的零 - shot 翻译能力,结合少样本放大、去噪和回译等方法,成功地实现了最新的无监督神经机器翻译模型,在 WMT14 英法数据集上获得了 BLEU 42.1 的最高性能表现。
Oct, 2021
采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation(BT4ST)方法,可有效解决资源不足情境下进行端到端语音转文本翻译的问题。
May, 2023
通过理论和实证研究,我们确定了合成数据对回译神经机器翻译(NMT)性能的两个关键因素,即质量和重要性。基于我们的发现,我们提出了一种简单而有效的方法来生成合成数据,以更好地权衡这两个因素,从而为回译提供更好的性能。通过在 WMT14 的基准任务中运行广泛的实验,我们的回译模型显著优于标准的回译基线方法,证明了我们提出方法的有效性。
Oct, 2023