ACLFeb, 2018

极低资源语言通用神经机器翻译

TL;DR本文介绍了一种针对数据有限的语言的新的通用机器翻译方法,利用迁移学习的方法,在多源语言之间共享词汇和句子级别的表示,从而帮助低资源的语言利用高资源语言的词汇和句子表示,在罗马尼亚语 - 英语 WMT2016 上,我们的方法在 6k 的平行语料库上能够获得 23 BLEU 分数,远高于使用多语言训练和反向翻译的强基线系统的 18 BLEU 分数,此外,我们还展示了该方法可以在零样本条件下对同一数据集进行微调,达到接近 20 BLEU 的分数。