AsNER—— 用于阿萨姆语命名实体识别的注释数据集和基准线

Jul, 2022

AsNER—— 用于阿萨姆语命名实体识别的注释数据集和基准线

AsNER -- Annotated Dataset and Baseline for Assamese Named Entity recognition

Dhrubajyoti Pathak, Sukumar Nandi, Priyankoo Sarmah

TL;DR我们提出 AsNER，这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集，其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词，数据集中包含了人名，地名和地址信息，并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69％的准确率。

Abstract

We present the asner, a named entity annotation dataset for low resource assamese language with a baseline Assamese NER model. The

asner assamese language named entity recognition dataset muril

发现论文，激发创造

HiNER：一个大规模的印地语命名实体识别数据集

该论文发布了一份标准符合的，包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集，并使用不同的语言模型对其进行了评估，表明其对于 NLP 在 Hindi 方面有着重要的作用。

Apr, 2022

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

pioNER：用于亚美尼亚命名实体识别的数据集和基准

本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型，以及 50~300 维的 GloVe 词向量模型，并给出相应实验结果。

Oct, 2018

L3Cube-MahaNER: 一个马拉地语的命名实体识别数据集和 BERT 模型

本文首次提出 L3Cube-MahaNER，这是一份 Marathi 语言的命名实体识别的黄金标准数据集，使用了不同基于 CNN、LSTM、变压器的模型进行了基准测试，发现 MahaBERT 表现最佳。

Apr, 2022

CL-NERIL: 一个用于印度语言命名实体识别的跨语言模型

通过利用英印平行语料库和英文命名实体识别数据集，在低资源背景下，提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法，利用源语言（英语）数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据，并在 Teacher-Student 模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言（印地语、孟加拉语和古吉拉特语）的手动注释测试集进行了评估。实证结果显示，在所有语言上，与零 - shot 迁移学习模型相比，所提出的框架表现出至少 10％的性能提升，这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。

Nov, 2021

运用辅助语言和迁移学习技术提高低资源实体命名识别

论文探究了如何在低资源语言如印地语和马拉地语中通过适应 BERT 模型，训练监督学习的 NER 模型，并比较了多语言模型与单语言模型的性能，研究结果表明多语言模型可以提高 NER 的精度。

Jun, 2023

医学口述实体识别

使用预训练多语言模型 XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集 VietMed-NER 上取得了最佳表现。

Jun, 2024

BanglaCoNER：面向健壮的孟加拉语复杂命名实体识别

本文介绍了在 BanglaCoNER 数据集上使用条件随机场（CRF）和微调变压器模型（如 BanglaBERT）的两种方法来解决 Bangla 复杂命名实体识别挑战的获胜解决方案。深入探究了数据集，发现该数据集具有 7 个不同的 NER 标记，具有英语单词的明显存在，表明该数据集是合成的。同时，我们实验证明了基于深度学习的模型是自然语言处理中更有效的模型之一，特别是在 CNER 任务中。我们的 fine-tuned BanglaBERT（large）模型在验证集上实现 F1 Score 为 0.79。

Mar, 2023

MultiCoNER：一个用于复杂命名实体识别的大型多语言数据集

介绍了一种名为 MultiCoNER 的大型多语言数据集，可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试，并对其进行了评估。建立的模型都表现出了不俗的性能，但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。

Aug, 2022