ACLApr, 2021

挖掘 Wikidata 以获得非洲语言姓名资源

TL;DR本研究提供了一个由 Wikidata 衍生的、对应于常见实体类型 (个人、位置、组织) 的名称列表资源,以支持为非拉丁字母语言开发语言技术的进一步发展。我们生产了包含约 1.9 百万个名字的列表,涵盖了 28 种非洲语言,同时讨论了数据的产生过程、局限性以及类似误差的道德考虑等方面的问题。