Jul, 2022

AsNER—— 用于阿萨姆语命名实体识别的注释数据集和基准线

TL;DR我们提出 AsNER,这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集,其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词,数据集中包含了人名,地名和地址信息,并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69%的准确率。