Jul, 2022
AsNER—— 用于阿萨姆语命名实体识别的注释数据集和基准线
AsNER -- Annotated Dataset and Baseline for Assamese Named Entity recognition
Dhrubajyoti Pathak, Sukumar Nandi, Priyankoo Sarmah
TL;DR我们提出 AsNER,这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集,其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词,数据集中包含了人名,地名和地址信息,并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69%的准确率。