ACLApr, 2023

WikiGoldSK:斯洛伐克命名实体识别的注释数据集、基线和少样本学习实验

TL;DR本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状,并通过引入 WikiGoldSK 数据集,评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果,并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验,并显示使用一个银标准数据集进行训练可以获得更好的结果。最终,我们公开了数据集、代码和经过训练的模型,并采用可许可的许可条款。