Jul, 2022

AsNER——用于阿萨姆语命名实体识别的注释数据集和基准线

TL;DR我们提出 AsNER,这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集,其中包括来自印度总理演讲和阿萨姆语剧本的约99k个单词,数据集中包含了人名,地名和地址信息,并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL等算法进行评估。其中最高的 F1-score 在使用MuRIL作为词嵌入方法时达到了80.69%的准确率。