ACLMay, 2023

语言识别的开放数据集和模型

TL;DR该研究提出了一种基于单语数据训练的语言识别模型,其在 201 种语言上的宏平均 F1 得分为 0.93,而误报率为 0.033,将先前工作的表现远远超过。我们对数据集进行了精心筛选,通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开,并详细分析了模型的性能。