EMNLPSep, 2020

利用预训练语言模型进行未监督 NMT 的低语料语言重用

TL;DR通过对两种大规模单语数据进行预先训练的语言模型(LM)初始化无监督神经机器翻译(UNMT)系统可以获得最先进的结果,但当一个语言的数据有限时,则会导致翻译不佳。 我们提出了一种有效的方法,该方法重新使用仅在高资源语言上进行预训练的 LM。单语 LM 在两种语言上进行微调,然后用于初始化 UNMT 模型。为了重复使用预先训练的 LM,我们必须修改其预定义的词汇量以适应新语言。 因此,我们提出了一种新颖的词汇扩展方法(RE-LM),在英语 - 马其顿语(En-Mk)和英语 - 阿尔巴尼亚语(En-Sq)中的四个翻译方向上,RE-LM 的表现优于竞争的跨语言预训练模型(XLM),BLEU 分数提高了 + 8.3 以上。