ParaNames：一个大规模多语种实体名称语料库

Feb, 2022

ParaNames：一个大规模多语种实体名称语料库

ParaNames: A Massively Multilingual Entity Name Corpus

Jonne Sälevä, Constantine Lignos

TL;DRParaNames 为跨越 400 种语言的 118 百万个人名提供了一个多语言平行名字库，映射到标准化的实体类型，并使用 Wikidata 作为数据源，为定义任务、实体识别和链接等提供了有用的多语言处理补充数据。

Abstract

We introduce ParaNames, a multilingual parallel name resource consisting of 118 million names spanning across 400 languages. Names are provided for 13.6 million entities which are mapped to standardized

multilingual name resource entity types wikidata language processing

发现论文，激发创造

ParaNames 1.0: 利用 Wikidata 创建一个包含 400 多种语言的实体名称语料库

提出了 ParaNames，一种包含 14 亿个名字跨越 400 种语言的大规模多语言平行名称资源，可以用于多语言语言处理、名称翻译 / 音译以及多语言命名实体识别等任务。

May, 2024

JRC-Names: 一份免费可获取的高度多语种实体命名资源

本研究描述了一种新的，免费提供的、高度多语种的名义实体资源，包含了经过七年大规模多语言新闻分析和维基百科挖掘编制的 20 多种语言、20 万个人名和组织名及同样数量的拼写变体。该资源可以用于改进数据库或互联网上的名称搜索，为机器学习系统提供学习命名实体识别规则，改善机器翻译等。我们在此描述了该资源的创建方式、当前规模的统计数据、形态学屈折问题的解决方案以及其功能的详细信息。该资源的更新将每日提供。

Sep, 2013

面向广泛覆盖的命名实体资源：多元语言数据高效方法

使用平行语料库和神经音译模型提取多语言命名实体资源，对于下游任务：知识图谱扩充和双语词典感应非常有效。

Jan, 2022

多语言人名识别和音译

提出了一个探索性工具，它从多语言新闻集合中提取出人名，将同一人物的不同名字匹配起来，并根据这些人名在相关新闻中的共同出现来推断人物间的关系，该工具能匹配包括希腊文、西里尔文和阿拉伯文等不同语言和文字系统中的名字变体，该工作是 NewsExplorer 新闻分析系统的一部分。

Sep, 2006

POLYGLOT-NER：大规模多语言命名实体识别

本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器，不需要任何人工标注数据集或语言特定的资源，通过生成分布式词表示，达到竞争性的表现，并提出了一种新的远程评估方法。

Oct, 2014

挖掘 Wikidata 以获得非洲语言姓名资源

本研究提供了一个由 Wikidata 衍生的、对应于常见实体类型 (个人、位置、组织) 的名称列表资源，以支持为非拉丁字母语言开发语言技术的进一步发展。我们生产了包含约 1.9 百万个名字的列表，涵盖了 28 种非洲语言，同时讨论了数据的产生过程、局限性以及类似误差的道德考虑等方面的问题。

Apr, 2021

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

Naamapadam：用于印度语言的大规模命名实体标注数据

使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式，构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子，涵盖 9 种语言的 3 种标准实体类别（人物、地点和组织），并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80，是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。

Dec, 2022

pioNER：用于亚美尼亚命名实体识别的数据集和基准

本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型，以及 50~300 维的 GloVe 词向量模型，并给出相应实验结果。

Oct, 2018

斯拉夫语跨语言命名实体语料库

该研究论文介绍了一个手动注释的语料库，包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类，以及命名实体的词形还原和链接。

Mar, 2024