May, 2022

为低资源语言预训练数据质量和数量: 马耳他语新语料库和BERT模型

TL;DR本文分析了使用单语数据进行预训练对于mBERT中未包含的低资源语种(如马耳他语)的效果,并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明,使用混合预训练域往往优于仅使用维基百科文本,并且只有一小部分的马耳他语语料库就足以在任务性能上取得显著提高。此外,本文还预训练并比较了两个模型:从头开始训练的单语BERT模型(BERTu)和进一步预训练的多语言BERT模型(mBERTu),这两个模型都在各种下游任务上取得了最先进的性能。