BriefGPT.xyz
May, 2024
ParaNames 1.0: 利用Wikidata创建一个包含400多种语言的实体名称语料库
ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata
HTML
PDF
Jonne Sälevä, Constantine Lignos
TL;DR
提出了ParaNames,一种包含14亿个名字跨越400种语言的大规模多语言平行名称资源,可以用于多语言语言处理、名称翻译/音译以及多语言命名实体识别等任务。
Abstract
We introduce
paranames
, a massively
multilingual
parallel name resource
consisting of 140 million names spanning over 400 languages. Names
→