HiNER：一个大规模的印地语命名实体识别数据集

Apr, 2022

HiNER：一个大规模的印地语命名实体识别数据集

HiNER: A Large Hindi Named Entity Recognition Dataset

Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia...

TL;DR该论文发布了一份标准符合的，包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集，并使用不同的语言模型对其进行了评估，表明其对于 NLP 在 Hindi 方面有着重要的作用。

Abstract

named entity recognition (NER) is a foundational nlp task that aims to provide class labels like Person, Location, Organisation, Time, and Number to words in free text. Named Entities can also be multi-word expre

named entity recognition hindi dataset sequence labelling nlp

发现论文，激发创造

为印度语言优化预训练的命名实体识别模型

对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时，提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库，并在该数据集上对多语言模型进行了微调，平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能，证实了我们模型的实用性。

May, 2024

CL-NERIL: 一个用于印度语言命名实体识别的跨语言模型

通过利用英印平行语料库和英文命名实体识别数据集，在低资源背景下，提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法，利用源语言（英语）数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据，并在 Teacher-Student 模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言（印地语、孟加拉语和古吉拉特语）的手动注释测试集进行了评估。实证结果显示，在所有语言上，与零 - shot 迁移学习模型相比，所提出的框架表现出至少 10％的性能提升，这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。

Nov, 2021

运用辅助语言和迁移学习技术提高低资源实体命名识别

论文探究了如何在低资源语言如印地语和马拉地语中通过适应 BERT 模型，训练监督学习的 NER 模型，并比较了多语言模型与单语言模型的性能，研究结果表明多语言模型可以提高 NER 的精度。

Jun, 2023

L3Cube-MahaNER: 一个马拉地语的命名实体识别数据集和 BERT 模型

本文首次提出 L3Cube-MahaNER，这是一份 Marathi 语言的命名实体识别的黄金标准数据集，使用了不同基于 CNN、LSTM、变压器的模型进行了基准测试，发现 MahaBERT 表现最佳。

Apr, 2022

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

汉迪语和马拉提语命名实体识别中的单语 BERT 与多语 BERT 对比研究

本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER)，使用 base-BERT，RoBERTa 和 AlBERT 等变体进行了基准测试，并在不同单语和多语 Transformer 模型之间进行了详细比较，发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳，而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。

Mar, 2022

AsNER—— 用于阿萨姆语命名实体识别的注释数据集和基准线

我们提出 AsNER，这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集，其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词，数据集中包含了人名，地名和地址信息，并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69％的准确率。

Jul, 2022

MasakhaNER: 面向非洲语言的命名实体识别

本文介绍了第一个大型公开高质量的非洲十种语言的命名实体识别数据集，研究这些语言对命名实体识别带来的挑战，并在监督和迁移学习设置下进行了广泛的实证评估和分析，旨在启发未来的非洲自然语言处理研究。

Mar, 2021

E-NER -- 一份法律文本的命名实体识别注释语料库

本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER，它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降，与在 E-NER 数据集上训练和测试相比，F1 分数下降了 29.4％至 60.4％。

Dec, 2022

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024