May, 2020

在资源匮乏的语言中建立文本分类基线

TL;DR本文旨在解决低资源语言菲律宾文的文本分类问题,并提供了两个以往未发布的数据集作为基准,使用预训练的 BERT 和 DistilBERT 模型并引入一个简单的性能衰减测试,以评估模型在不同训练集数量下的表现降低速度,并释放所有模型和数据集供研究社区使用。