Sep, 2023

SIB-200:一个简单、包容和大规模的 200 + 种语言和方言的主题分类评估数据集

TL;DR我们创建了一个大规模的开源基准数据集 SIB-200,用于解决自然语言理解方面缺乏评估数据集的问题,并在全监督、跨语言迁移和大型语言模型等多个环境中评估,结果显示在众多世界语言中,高资源语言和低资源语言之间仍存在很大差距。我们的研究表明,缺乏预训练多语言语言模型的语言、少数语言家族以及来自非洲、美洲、大洋洲和东南亚地区的语言通常在主题分类数据集上表现最差。希望我们的数据集能鼓励对更多种类语言进行多语言语言模型的包容性评估。