利用自监督单语数据进行多语言神经机器翻译

May, 2020

利用自监督单语数据进行多语言神经机器翻译

Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation

Aditya Siddhant, Ankur Bapna, Yuan Cao, Orhan Firat, Mia Chen...

TL;DR本文研究了两个方向在低资源的神经机器翻译中的应用。第一种方向利用高资源语言通过多语言 NMT 来提高低资源语言的翻译质量。第二种方向利用自监督单语数据来预训练翻译模型并在少量监督数据的支持下进行 fine-tuning。本研究结合这两种方向，证明了单语数据对于多语言 NMT 的有效性，并提出了三个重要结果：(i) 使用单语数据显著提高了多语言模型中低资源语言的翻译质量。(ii) 自监督在多语言模型中提高了零样本翻译质量。(iii) 利用带自监督的单语数据为多语言模型添加新语言提供了一条可行的路径，在没有任何平行数据或回译的情况下，对于罗马尼亚 - 英语的翻译获得了高达 33 BLEU 的结果。

Abstract

Over the last few years two promising research directions in low-resource neural machine translation (NMT) have emerged. The first focuses on utilizing high-resource languages to improve the quality of

low-resource neural machine translation multilingual nmt monolingual data self-supervision

发现论文，激发创造

探索有监督学习和自监督学习之间的协同作用：迈向多语言机器翻译的下一个 1000 种语言

通过混合监督和自我监督目标的方法，实现了覆盖数百种语言的多语言机器翻译模型的构建，该方法可在零资源情况下生成高质量翻译，甚至超过低 - 中资源语言的监督翻译质量。

Jan, 2022

使用单语数据改进神经机器翻译模型

通过将单语数据与自动背景翻译配对，我们未改变神经网络结构，使用目标语单语训练数据进行神经机器翻译（NMT）模型的训练，并在多项任务上取得最新的最优结果（最高 + 2.8-3.7 BLEU），并证明了使用领域单语和平行数据进行微调，对 IWSLT 15 任务英德翻译有实质性的改善。

Nov, 2015

跨语言监督提高无监督神经机器翻译

本研究提出了一种跨语言无监督神经机器翻译框架，利用来自高资源语言对的弱监督信号，以提高零资源翻译质量。该框架基于多语言模型，不需要对标准无监督神经机器翻译进行改动，实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。

Apr, 2020

利用单语数据进行神经机器翻译模型的联合训练

本文提出了一种新方法，通过联合 EM 优化方法融合源语言和目标语言的神经机器翻译模型，以更好地利用单语数据来提高翻译质量，实验结果表明，相对于使用单语数据训练的强基线系统，该方法可以同时提高源到目标和目标到源模型的翻译质量。

Mar, 2018

多语言神经机器翻译的多任务学习

提出了一种基于多任务学习的框架，通过对单语数据的两个去噪任务和双语数据的翻译任务联合训练模型，显著提高了多语言 NMT 系统的翻译质量，并在零样本学习的情况下证明了该方法的有效性。

Oct, 2020

利用自我训练增强低资源神经机器翻译的反向翻译

利用自训练策略改进 Neural Machine Translation（NMT）模型，通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型，可提高低资源下的翻译品质，提高翻译模型的 BLEU 值。

Jun, 2020

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

零资源语言的多语言神经机器翻译

本篇论文介绍了如何使用多语言神经机器翻译（multilingual NMT）解决低资源语种翻译问题，提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明，多语言 NMT 优于传统的双语 NMT，Transformer 模型优于循环神经网络模型，零样本 NMT 优于传统的基于中间语的翻译方法，甚至与完全训练的双语系统相当。

Sep, 2019

神经机器翻译的半监督学习

该论文提出了一种半监督的方法来训练神经机器翻译模型，该方法使用标记数据和未标记数据的拼接，通过一个自编码器重建单语语料库，从而利用源语言和目标语言的单语语料库以及双语平行语料库从而在中英数据集上取得了显著的性能提升。

Jun, 2016

非平衡训练数据情景下的无监督神经机器翻译自训练

本文旨在解决源语言文本资源匮乏时，因失衡的训练数据导致无监督神经机器翻译系统（UNMT）性能低下的问题，提出基于自训练机制的 UNMT 系统，实验证明了其比传统 UNMT 系统的性能更好。

Apr, 2020