Apr, 2023

ScandEval: 用于北欧自然语言处理的基准测试

TL;DR本文介绍了一个名为 ScandEval 的斯堪的纳维亚基准平台,该平台可对四个不同任务的任何预训练模型进行基准测试。我们开发并发布了一个名为 scandeval 的 Python 软件包和命令行界面,可以对上传到 Hugging Face Hub 的任何模型进行基准测试,并提供可重复的结果。通过使用 ScandEval 软件包,我们对 100 多个斯堪的纳维亚或多语言模型进行基准测试,并在交互式在线排行榜中展示了这些结果,同时提供了结果分析。分析结果表明,在大陆斯堪的纳维亚语言之间存在很大的跨语言转移,而大陆斯堪的纳维亚语言组和岛屿斯堪的纳维亚语言组之间的跨语言转移有限。基准测试结果还表明,挪威、瑞典和丹麦的语言技术投资取得了优秀的成果,其语言模型性能超过了像 XLM-RoBERTa 和 mDeBERTaV3 之类的巨型多语言模型。我们同时发布了软件包和排行榜的源代码。