本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状,并通过引入 WikiGoldSK 数据集,评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果,并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验,并显示使用一个银标准数据集进行训练可以获得更好的结果。最终,我们公开了数据集、代码和经过训练的模型,并采用可许可的许可条款。
我们为塔加洛语开发了一个命名实体识别(NER)数据集,填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库,并由母语人士迭代标注。该数据集包含约 7.8k 个文档,涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后,我们公开发布了数据和处理代码,以激励未来在塔加洛语自然语言处理方面的研究工作。