WikiGoldSK：斯洛伐克命名实体识别的注释数据集、基线和少样本学习实验

ACLApr, 2023

WikiGoldSK：斯洛伐克命名实体识别的注释数据集、基线和少样本学习实验

WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning Experiments for Slovak Named Entity Recognition

Dávid Šuba, Marek Šuppa, Jozef Kubík, Endre Hamerlik, Martin Takáč

TL;DR本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状，并通过引入 WikiGoldSK 数据集，评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果，并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验，并显示使用一个银标准数据集进行训练可以获得更好的结果。最终，我们公开了数据集、代码和经过训练的模型，并采用可许可的许可条款。

Abstract

named entity recognition (NER) is a fundamental nlp tasks with a wide range of practical applications. The performance of state-of-the-art NER methods depends on high quality manually anotated datasets which stil

named entity recognition nlp dataset creation slovak language pretrained language models

发现论文，激发创造

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线

命名实体识别（NER）模型在各种自然语言处理（NLP）任务中起着关键作用，包括信息抽取（IE）和文本理解。在学术写作中，对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分，并需要准确的模型识别。尽管 NER 取得了进展，但现有的真实数据集未将细粒度类型（如 ML 模型和模型架构）视为单独的实体类型，因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库，并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解，我们的数据集还包含了与非正式提及相关的注释，例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。

Nov, 2023

Few-NERD：少样本命名实体识别数据集

本文提出了 Few-NERD 数据集，并利用其来制定基准任务，从而全面评估模型的泛化能力，结果表明 Few-NERD 具有挑战性并需要进一步研究。

May, 2021

pioNER：用于亚美尼亚命名实体识别的数据集和基准

本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型，以及 50~300 维的 GloVe 词向量模型，并给出相应实验结果。

Oct, 2018

通用 NER：金标准多语言命名实体识别基准

介绍了一个名为 Universal NER (UNER) 的开源项目，旨在开发多种语言的黄金标准 NER 基准；UNER 的目标是提供高质量的、跨语言一致的标注，以促进和标准化多语言 NER 研究。UNER v1 包含使用一致的跨语言模式在 12 种不同语言中注释的 18 个数据集。在本文中，我们详细介绍了 UNER 的数据集创建和组成，并提供了在本语言和跨语言学习设置下的初始建模基线。我们向公众发布了数据、代码和拟合模型。

Nov, 2023

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

神经交叉语言转移和有限注释数据应用在丹麦命名实体识别

该研究评估了跨语言转移模型在丹麦语命名实体识别中的表现，并研究了在极少量标注数据情况下的补充效果，以及阐述了丹麦语 NER 的性能。

Mar, 2020

POLYGLOT-NER：大规模多语言命名实体识别

本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器，不需要任何人工标注数据集或语言特定的资源，通过生成分布式词表示，达到竞争性的表现，并提出了一种新的远程评估方法。

Oct, 2014

少样本命名实体识别：综合研究

本文提出了一种有效地建立识别命名实体（NER）系统的方法，基于最近的基于转换器的自我监督预训练语言模型（PLMs），并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力，通过大量实验结果表明，我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法，同时在无训练和少样例学习环境下建立了最新的业界记录。

Dec, 2020

NERetrieve: 下一代命名实体识别与检索数据集

通过大规模语言模型，命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标，但这些目标仍然需要进一步研究和探索。

Oct, 2023