May, 2023

DUMB: 用于荷兰模型智能评估的基准测试

TL;DR我们引入了荷兰模型基准: DUMB。该基准测试包括一组多样化的低、中、高资源任务数据集。通过比较 14 个预先训练的模型 (单语言和多语言,并且大小不同),我们评估了基准任务的内部一致性,以及可能导致高性能的因素。我们的结果表明,当前的荷兰单语言模型表现不佳,并建议使用其他架构和预训练目标训练更大的荷兰模型。目前,最高性能是由 DeBERTaV3(大型)、XLM-R(大型)和 mDeBERTaV3(基础)实现的。除了突出训练较大的荷兰语模型的最佳策略外,DUMB 还将促进对荷兰语言研究的进一步开展。