Jun, 2020

迭代自监督训练的跨语言检索

TL;DR本研究中,我们发现对自己的编码器输出进行挖掘,可以进一步提高多语言预训练语言模型的跨语言对齐能力;利用这一发现,我们提出了一种新方法 -- 交叉语言检索用于迭代自监督训练 (CRISS),并取得了 9 种语言方向的最新无监督机器翻译结果以及 16 种语言的 Tatoeba 句子检索任务的最高准确率的平均提升为 21.5%,同时相对于 mBART,CRISS 在监督机器翻译下游任务上平均提高了 1.8 BLEU。