ACLDec, 2020

你的分词器有多好?多语言语言模型在单语言性能上的表现

TL;DR通过在九种语言和五种单语言任务的实验中对比预训练的多语言和单语言模型的表现来研究它们之间的差异,结果表明预训练数据规模和专门的单语言分词器对于下游性能同样重要,而对于具有多语言模型词汇表适当表示的语言的性能下降可以忽略不计。使用专门的单语言分词器可以提高几乎每个任务和语言的多语言模型的下游性能。