ParaNames:一个大规模多语种实体名称语料库
提出了 ParaNames,一种包含 14 亿个名字跨越 400 种语言的大规模多语言平行名称资源,可以用于多语言语言处理、名称翻译 / 音译以及多语言命名实体识别等任务。
May, 2024
本研究描述了一种新的,免费提供的、高度多语种的名义实体资源,包含了经过七年大规模多语言新闻分析和维基百科挖掘编制的 20 多种语言、20 万个人名和组织名及同样数量的拼写变体。该资源可以用于改进数据库或互联网上的名称搜索,为机器学习系统提供学习命名实体识别规则,改善机器翻译等。我们在此描述了该资源的创建方式、当前规模的统计数据、形态学屈折问题的解决方案以及其功能的详细信息。该资源的更新将每日提供。
Sep, 2013
提出了一个探索性工具,它从多语言新闻集合中提取出人名,将同一人物的不同名字匹配起来,并根据这些人名在相关新闻中的共同出现来推断人物间的关系,该工具能匹配包括希腊文、西里尔文和阿拉伯文等不同语言和文字系统中的名字变体,该工作是 NewsExplorer 新闻分析系统的一部分。
Sep, 2006
本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
本研究提供了一个由 Wikidata 衍生的、对应于常见实体类型 (个人、位置、组织) 的名称列表资源,以支持为非拉丁字母语言开发语言技术的进一步发展。我们生产了包含约 1.9 百万个名字的列表,涵盖了 28 种非洲语言,同时讨论了数据的产生过程、局限性以及类似误差的道德考虑等方面的问题。
Apr, 2021
我们为塔加洛语开发了一个命名实体识别(NER)数据集,填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库,并由母语人士迭代标注。该数据集包含约 7.8k 个文档,涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后,我们公开发布了数据和处理代码,以激励未来在塔加洛语自然语言处理方面的研究工作。
Nov, 2023
使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式,构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子,涵盖 9 种语言的 3 种标准实体类别(人物、地点和组织),并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80,是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。
Dec, 2022
本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型,以及 50~300 维的 GloVe 词向量模型,并给出相应实验结果。
Oct, 2018
该研究论文介绍了一个手动注释的语料库,包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类,以及命名实体的词形还原和链接。
Mar, 2024