Naamapadam：用于印度语言的大规模命名实体标注数据

Dec, 2022

Naamapadam：用于印度语言的大规模命名实体标注数据

Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages

Arnav Mhaske, Harshit Kedia, Sumanth Doddapaneni, Mitesh M. Khapra, Pratyush Kumar...

TL;DR使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式，构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子，涵盖 9 种语言的 3 种标准实体类别（人物、地点和组织），并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80，是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。

Abstract

We present, Naamapadam, the largest publicly available Named Entity Recognition (ner) dataset for the 11 major indian languages from two l

named entity recognition indian languages dataset ner multilingual

发现论文，激发创造

HiNER：一个大规模的印地语命名实体识别数据集

该论文发布了一份标准符合的，包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集，并使用不同的语言模型对其进行了评估，表明其对于 NLP 在 Hindi 方面有着重要的作用。

Apr, 2022

MasakhaNER: 面向非洲语言的命名实体识别

本文介绍了第一个大型公开高质量的非洲十种语言的命名实体识别数据集，研究这些语言对命名实体识别带来的挑战，并在监督和迁移学习设置下进行了广泛的实证评估和分析，旨在启发未来的非洲自然语言处理研究。

Mar, 2021

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

L3Cube-MahaNER: 一个马拉地语的命名实体识别数据集和 BERT 模型

本文首次提出 L3Cube-MahaNER，这是一份 Marathi 语言的命名实体识别的黄金标准数据集，使用了不同基于 CNN、LSTM、变压器的模型进行了基准测试，发现 MahaBERT 表现最佳。

Apr, 2022

为印度语言优化预训练的命名实体识别模型

对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时，提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库，并在该数据集上对多语言模型进行了微调，平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能，证实了我们模型的实用性。

May, 2024

AI4Bharat-IndicNLP 语料库：印度语系单语语料库与词嵌入

介绍 IndicNLP 语料库，包含来自两种语言家族的 10 种印度语言的 27 亿词，分享了基于这些语料库训练的预训练词向量，证明其在多个评估任务中的显著优异表现，希望该语料库的开放能够加速 Indic 自然语言处理领域的研究。

Apr, 2020

AsNER—— 用于阿萨姆语命名实体识别的注释数据集和基准线

我们提出 AsNER，这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集，其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词，数据集中包含了人名，地名和地址信息，并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69％的准确率。

Jul, 2022

Samanantar: 11 种印度语言最大的公开并行语料库收集

介绍了 Samanantar，这是最大的公共平行语料库集合，包括英语和 11 种印度语言之间的 49.7 百万句子对，同时提取自公共平行语料库和网络，并在 Samanantar 上训练多语种 NMT 模型，从而在公开可用的基准测试上优于现有模型和基准线，希望能够推进印度语言的 NMT 和多语种 NLP 研究。

Apr, 2021

pioNER：用于亚美尼亚命名实体识别的数据集和基准

本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型，以及 50~300 维的 GloVe 词向量模型，并给出相应实验结果。

Oct, 2018

CL-NERIL: 一个用于印度语言命名实体识别的跨语言模型

通过利用英印平行语料库和英文命名实体识别数据集，在低资源背景下，提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法，利用源语言（英语）数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据，并在 Teacher-Student 模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言（印地语、孟加拉语和古吉拉特语）的手动注释测试集进行了评估。实证结果显示，在所有语言上，与零 - shot 迁移学习模型相比，所提出的框架表现出至少 10％的性能提升，这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。

Nov, 2021