May, 2020

利用自监督单语数据进行多语言神经机器翻译

TL;DR本文研究了两个方向在低资源的神经机器翻译中的应用。第一种方向利用高资源语言通过多语言 NMT 来提高低资源语言的翻译质量。第二种方向利用自监督单语数据来预训练翻译模型并在少量监督数据的支持下进行 fine-tuning。本研究结合这两种方向,证明了单语数据对于多语言 NMT 的有效性,并提出了三个重要结果:(i) 使用单语数据显著提高了多语言模型中低资源语言的翻译质量。(ii) 自监督在多语言模型中提高了零样本翻译质量。(iii) 利用带自监督的单语数据为多语言模型添加新语言提供了一条可行的路径,在没有任何平行数据或回译的情况下,对于罗马尼亚 - 英语的翻译获得了高达 33 BLEU 的结果。