COLINGMay, 2024
ParaNames 1.0: 利用 Wikidata 创建一个包含 400 多种语言的实体名称语料库
ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata
Jonne Sälevä, Constantine Lignos
TL;DR提出了 ParaNames,一种包含 14 亿个名字跨越 400 种语言的大规模多语言平行名称资源,可以用于多语言语言处理、名称翻译 / 音译以及多语言命名实体识别等任务。