Nov, 2019

大规模跨语言无监督表示学习

TL;DR通过在100种语言上使用超过2TB的CommonCrawl数据对基于Transformer的掩蔽语言模型进行大规模的预训练,该模型命名为XLM-R,显著优于mBERT,在跨语言基准测试中实现了+14.6%和+13%的平均准确性和F1分数,并改善了10个低资源语言的准确性,显示了前景。