Sep, 2023

AlbNER:一个阿尔巴尼亚语命名实体识别语料库

TL;DR资源稀缺,如阿尔巴尼亚语等语言中的已注释文本语料库对计算语言学和自然语言处理研究构成严重障碍。本文介绍了 AlbNER,一个从阿尔巴尼亚维基百科文章中收集的具有标注命名实体的 900 个句子的语料库。使用 BERT 和 RoBERTa 变体在 AlbNER 数据上进行微调和测试的初步结果表明,模型大小对 NER 性能有轻微影响,而语言转移具有显著影响。AlbNER 语料库和这些获得的结果应作为未来实验的基线。