命名实体识别中未标注实体问题的实证分析

ICLRDec, 2020

命名实体识别中未标注实体问题的实证分析

Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

Yangming Li, Lemao Liu, Shuming Shi

TL;DR通过使用负采样，避免 NER 模型的训练受到未标注实体的干扰，提出了一种能够有效应对未标注实体问题的方法。在实验中，该方法表现出很强的鲁棒性，甚至能够超越现有的基线模型。

Abstract

In many scenarios, named entity recognition (NER) models severely suffer from unlabeled entity problem, where the entities of a sentence may not be fully annotated. Through empirical studies performed on syntheti

named entity recognition unlabeled entity problem negative sampling pretraining language models ner models

发现论文，激发创造

使用正 - 未标记学习进行远程监督的命名实体识别

提出一种新的 PU 学习算法，用于使用未标记的数据和命名实体词典执行命名实体识别任务，该方法不需要词典标记每个句子中的所有实体，也不需要词典标记构成实体的所有单词。通过对四个公共 NER 数据集的实证研究，证明了该方法的有效性。

Jun, 2019

针对命名实体识别中无标签实体问题的噪声鲁棒性损失函数

本文提出了一种新的名词实体识别（Named Entity Recognition，NER）的方法 NRCES，通过使用 sigmoid 函数减轻噪声的负面影响并平衡模型的收敛速度和噪声容忍度，成功地解决了大规模无标注数据集的识别问题，并在合成和现实数据集上表现出了鲁棒性。

Aug, 2022

使用部分标注的训练数据进行命名实体识别

研究了使用部分标记数据进行命名实体识别的问题，用迭代算法通过识别假负标签减小其权值，训练带有偏重的 NER 模型，取得 8 种语言的实验结果，并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。

Sep, 2019

重新思考生成式命名实体识别的负实例

通过引入负实例并采用分层匹配算法，本研究在大型语言模型上实现了对命名实体识别任务的改进，提出了改进的零样本性能的生成式 NER 系统 GNER。

Feb, 2024

重新思考负采样来处理缺失实体注释

本文介绍了关于如何使用负采样处理命名实体识别任务的缺失注释的分析和改进方法，通过引入 missampling 和 uncertainty 两个概念，实验证明负采样的低错误率和高不确定性是实现良好表现的关键，并提出了一种自适应和加权采样方法提高了负采样性能，证明在合成数据集以及 CoNLL-2003 数据集中，改进后的负采样方法能够提高 F1 得分且 loss 收敛速度更快，更进一步在实际数据集比如 EC 上取得了最新的最佳效果。

Aug, 2021

少样本命名实体识别：综合研究

本文提出了一种有效地建立识别命名实体（NER）系统的方法，基于最近的基于转换器的自我监督预训练语言模型（PLMs），并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力，通过大量实验结果表明，我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法，同时在无训练和少样例学习环境下建立了最新的业界记录。

Dec, 2020

无标记数据下的命名实体识别：一种弱监督方法

文章提出了一种简单但有效的方法，通过弱监督机制在没有标注数据的情况下学习 NER 模型，该方法使用广泛的标注功能对目标域中的文本进行自动注释，然后通过隐马尔可夫模型将这些注释合并在一起，从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估（CoNLL 2003 和来自路透社和彭博社的新闻文章），相比于域外神经 NER 模型，在实体级别的 F1 得分上取得了约 7 个百分点的提升。

Apr, 2020

远距监督命名实体识别负例更好的采样

本文提出了一种简单直接的方法，通过选择与所有正样本相似度高的负样本来训练，以提高四个远程监督 NER 数据集的性能表现，并且分析表明有必要区分真负样本和假负样本。

May, 2023

高度不平衡数据下适应性命名实体识别

本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构，其中嵌入向量（Glove，BERT）的融合输入被用来增强模型的泛化能力，还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明，该方法显著提高了弱类的表现结果，并且只使用了非常少量的数据集。

Mar, 2020

跨语言命名实体识别的增强迭代知识蒸馏

本文描述了微软在交叉语种命名实体识别中的新实践方法，使用源语种的标注数据和目标语种的无标注数据，采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。

Jun, 2021