african languages are spoken by over a billion people, but are underrepresented in nlp research and development. The challenges impeding progress include the limited availability of annotated datasets, as well as
介绍了一个名为Universal NER (UNER)的开源项目,旨在开发多种语言的黄金标准NER基准;UNER的目标是提供高质量的、跨语言一致的标注,以促进和标准化多语言NER研究。UNER v1包含使用一致的跨语言模式在12种不同语言中注释的18个数据集。在本文中,我们详细介绍了UNER的数据集创建和组成,并提供了在本语言和跨语言学习设置下的初始建模基线。我们向公众发布了数据、代码和拟合模型。