为塔加洛语开发命名实体识别数据集

ACLNov, 2023

为塔加洛语开发命名实体识别数据集

Developing a Named Entity Recognition Dataset for Tagalog

Lester James V. Miranda

TL;DR我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Abstract

We present the development of a named entity recognition (NER) dataset for tagalog. This corpus helps fill the resource gap present in Philippine languages today, where NER resources are scarce. The texts were ob

named entity recognition tagalog ner dataset philippine languages supervised and transfer learning

发现论文，激发创造

HiNER：一个大规模的印地语命名实体识别数据集

该论文发布了一份标准符合的，包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集，并使用不同的语言模型对其进行了评估，表明其对于 NLP 在 Hindi 方面有着重要的作用。

Apr, 2022

pioNER：用于亚美尼亚命名实体识别的数据集和基准

本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型，以及 50~300 维的 GloVe 词向量模型，并给出相应实验结果。

Oct, 2018

E-NER -- 一份法律文本的命名实体识别注释语料库

本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER，它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降，与在 E-NER 数据集上训练和测试相比，F1 分数下降了 29.4％至 60.4％。

Dec, 2022

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

AsNER—— 用于阿萨姆语命名实体识别的注释数据集和基准线

我们提出 AsNER，这是一个适用于资源匮乏的阿萨姆语的命名实体注释数据集，其中包括来自印度总理演讲和阿萨姆语剧本的约 99k 个单词，数据集中包含了人名，地名和地址信息，并基于 Fasttext, BERT, XLM-R, FLAIR, MuRIL 等算法进行评估。其中最高的 F1-score 在使用 MuRIL 作为词嵌入方法时达到了 80.69％的准确率。

Jul, 2022

马来西亚英语新闻解码：一个命名实体和关系提取的语言资源

通过构建一个针对马来西亚英语的新闻数据集，并利用该数据集进行 spaCy NER 工具的微调，我们成功地改进了马来西亚英语中实体识别的性能。该数据集将在马来西亚英语的自然语言处理研究中作出重要贡献，尤其是在命名实体识别和关系抽取方面。

Feb, 2024

MasakhaNER: 面向非洲语言的命名实体识别

本文介绍了第一个大型公开高质量的非洲十种语言的命名实体识别数据集，研究这些语言对命名实体识别带来的挑战，并在监督和迁移学习设置下进行了广泛的实证评估和分析，旨在启发未来的非洲自然语言处理研究。

Mar, 2021

WikiGoldSK：斯洛伐克命名实体识别的注释数据集、基线和少样本学习实验

本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状，并通过引入 WikiGoldSK 数据集，评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果，并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验，并显示使用一个银标准数据集进行训练可以获得更好的结果。最终，我们公开了数据集、代码和经过训练的模型，并采用可许可的许可条款。

Apr, 2023

神经交叉语言转移和有限注释数据应用在丹麦命名实体识别

该研究评估了跨语言转移模型在丹麦语命名实体识别中的表现，并研究了在极少量标注数据情况下的补充效果，以及阐述了丹麦语 NER 的性能。

Mar, 2020

医学口述实体识别

使用预训练多语言模型 XLM-R，在医学领域的首个口头命名实体识别（Spoken Named Entity Recognition）数据集 VietMed-NER 上取得了最佳表现。

Jun, 2024