May, 2021

面向多语言掩码语言建模的大规模 Transformer

TL;DR本研究探讨了跨语言语言模型预训练的有效性,并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型,这两个新模型分别称为 XLM-R XL 和 XLM-R XXL,在 XNLI 中的平均准确率比 XLM-R 高 1.8%和 2.4%,同时处理了 99 种以上的语言,优于 RoBERTa-Large 模型,表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能,同时极大地改善了低资源语言。