面向多语言掩码语言建模的大规模Transformer

May, 2021

面向多语言掩码语言建模的大规模Transformer

Larger-Scale Transformers for Multilingual Masked Language Modeling

Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau

TL;DR本研究探讨了跨语言语言模型预训练的有效性，并且提出了两个参数分别为3.5B和10.7B的大型多语言掩码语言模型，这两个新模型分别称为XLM-R XL和XLM-R XXL，在XNLI中的平均准确率比XLM-R高1.8％和2.4％，同时处理了99种以上的语言，优于RoBERTa-Large模型，表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能，同时极大地改善了低资源语言。

Abstract

Recent work has demonstrated the effectiveness of cross-lingual language model pretraining for cross-lingual understanding. In this study,