部分注释数据的命名实体识别

Apr, 2022

Named Entity Recognition for Partially Annotated Datasets

Michael Strobl, Amine Trabelsi, Osmar Zaiane

TL;DR本研究比较了三种部分标注数据集的训练策略以及从维基百科派生新实体类数据集的方法，并针对两个新类别（食品和药物）手动注释测试数据集以验证数据获取和训练方法的可行性。

Abstract

The most common named entity recognizers are usually sequence taggers trained on fully annotated corpora, i.e. the class of all words for all entities is known. →

named entity recognizers sequence taggers partially annotated corpora training strategies wikipedia

发现论文，激发创造

使用部分标注的训练数据进行命名实体识别

研究了使用部分标记数据进行命名实体识别的问题，用迭代算法通过识别假负标签减小其权值，训练带有偏重的 NER 模型，取得 8 种语言的实验结果，并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。

Sep, 2019

生物医学实体识别的部分注释学习

本文探讨了应用部分标注学习方法在缺失生物医学命名实体注释的场景中进行实体识别的有效性，并提出了一个新的 TS-PubMedBERT-Partial-CRF 模型来提高实体识别性能。实验结果表明，该模型在高缺失实体比例下的 F1-score 比使用全标注学习模型 PubMedBERT Tagger 高 38％，同时其实体识别的召回率也达到了与全标注学习数据集上的上界相竞争的水平。

May, 2023

近期命名实体识别研究进展综述

命名实体识别（NER）旨在从文本中提取命名真实世界对象并确定它们的类型，本文首先概述了最近流行的方法，然后探讨了其他调查中较少涉及的基于图和变换器的方法，包括大型语言模型（LLMs）。其次，重点介绍了适用于稀缺注释数据集的方法。第三，我们评估了主要 NER 实现在不同类型的数据集上的性能，并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。

Jan, 2024

基于深度学习的食谱命名实体识别模型

通过对三个数据集进行分析，我们发现进行了细粒度微调的 spaCy-transformer 成为最佳模型，对于手动注释、增强注释和机器注释数据集，它的宏 F1 分数分别为 95.9％、96.04％和 95.71％。

Feb, 2024

在部分注释的命名实体识别语料库上微调 BERT 模型

本文提出一种基于 BERT 和自监督学习、标签预处理来优化部分标记数据集上的命名实体识别 (NER) 模型的方法。我们的方法在处理缺乏标记的数据集时显著优于基于 LSTM 的标签预处理基线，并证明在 CoNLL 2003 数据集上使用 RoBERTa 模型只标记 10％的实体即可达到与 50％实体标记的基线模型相同的性能。

Nov, 2022

基于示例的命名实体识别

我们提出了一种新的名词实体识别方法，称为基于示例的实体识别，在缺乏数据的情况下通过受到问答启发，使用少量支持示例来识别新领域中的实体范围，与当前最先进的方法相比，该方法表现出更好的性能，特别是在使用少量支持示例时。

Aug, 2020

NERetrieve: 下一代命名实体识别与检索数据集

通过大规模语言模型，命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标，但这些目标仍然需要进一步研究和探索。

Oct, 2023

命名实体识别的分类扩展

本研究提出了一种称为 “部分标签模型（Partial Label Model）” 的新方法，该方法可以使用部分有标注的数据集来训练 NER 模型，以更节省成本地扩展分类法，实验表明，该方法在新分类法设置下的表现显著优于其他方法，并在额外实体类型数据有限的情况下表现出更加节省成本。

May, 2023

少样本命名实体识别：综合研究

本文提出了一种有效地建立识别命名实体（NER）系统的方法，基于最近的基于转换器的自我监督预训练语言模型（PLMs），并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力，通过大量实验结果表明，我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法，同时在无训练和少样例学习环境下建立了最新的业界记录。

Dec, 2020

实体的不同偏好：研究命名实体标注中的人工标签变化

本研究通过对三种语言的专家注释的命名实体数据集进行调查，展示了文本歧义和人工指南变更是高质量修订的差异性注释的主要因素，并对难以理解的实体的学生注释进行了调查，证明了从分布视角理解命名实体歧义的多向注释的可行性和必要性。

Feb, 2024