远距监督命名实体识别负例更好的采样

ACLMay, 2023

远距监督命名实体识别负例更好的采样

Better Sampling of Negatives for Distantly Supervised Named Entity Recognition

Lu Xu, Lidong Bing, Wei Lu

TL;DR本文提出了一种简单直接的方法，通过选择与所有正样本相似度高的负样本来训练，以提高四个远程监督 NER 数据集的性能表现，并且分析表明有必要区分真负样本和假负样本。

Abstract

distantly supervised named entity recognition (DS-NER) has been proposed to exploit the automatically labeled training data instead of human annotations. The distantly annotated datasets are often noisy and conta

distantly supervised named entity recognition automatically labeled training data negative samples consistent performance improvements false negatives

发现论文，激发创造

重新审视远程监督的命名实体识别：一个新的基准和一种简单方法

该研究论文探讨了在遥感监督（DS-NER）框架下的命名实体识别（NER），其中主要挑战在于由于伪阳性、伪阴性和正类型错误等固有错误导致标签质量受损。我们批判性评估了当前 DS-NER 方法的效力，使用了一个名为 QTL 的真实基准数据集，揭示其性能常常达不到预期。为了解决标签噪声的普遍问题，我们引入了一种简单而有效的方法，基于课程的正负无标记学习（CuPUL），该方法在训练过程中通过从 “简单” 且更干净的样本开始，增强模型对噪声样本的鲁棒性。我们的实证结果突出了 CuPUL 减少噪声标签影响、超越现有方法的能力。

Feb, 2024

具有噪声鲁棒性和语言模型增强的远程监督命名实体识别

本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别（NER）模型，提出了一种噪声鲁棒的学习方案和自训练方法，通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力，在三个基准数据集上，我们的方法均获得了优越的性能，显著优于现有的远程监督 NER 模型。

Sep, 2021

使用自适应教师学习和细粒度学生集成的远程监督命名实体识别

本文提出了一种适应性教师学习和细粒度学生集成的神经网络模型，用于解决 Named Entity Recognition 中远程监督训练数据不足和训练标签不准确的问题，实验证明该方法显著优于现有的最佳方法。

Dec, 2022

重新思考负采样来处理缺失实体注释

本文介绍了关于如何使用负采样处理命名实体识别任务的缺失注释的分析和改进方法，通过引入 missampling 和 uncertainty 两个概念，实验证明负采样的低错误率和高不确定性是实现良好表现的关键，并提出了一种自适应和加权采样方法提高了负采样性能，证明在合成数据集以及 CoNLL-2003 数据集中，改进后的负采样方法能够提高 F1 得分且 loss 收敛速度更快，更进一步在实际数据集比如 EC 上取得了最新的最佳效果。

Aug, 2021

使用部分标注的训练数据进行命名实体识别

研究了使用部分标记数据进行命名实体识别的问题，用迭代算法通过识别假负标签减小其权值，训练带有偏重的 NER 模型，取得 8 种语言的实验结果，并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。

Sep, 2019

用少量干净实例改进在嘈杂数据上训练的命名实体识别器

为了实现最先进的性能，我们提出了使用少量干净实例的指导来去噪 NER 数据的方法，通过训练鉴别模型并使用其输出来重新校准样本权重，能够改善性能并在众包和远程监督数据集上保持一致的结果。

Oct, 2023

重新审视远程监督关系抽取的负数据

本文提出了一种名为 ReRe 的管道方法，通过句子级别的关系检测和主谓对象提取来实现样本有效训练，将关系抽取问题转化为正无标记学习任务，缓解了负样本引起的误差问题，实验结果表明，该方法能够持续超越现有方法并且即使在学习大量的假阳性样本时仍保持良好的性能。

May, 2021

基于不确定性感知的远程监督命名实体识别中的教师学习和学生协同学习

提出了一种减轻标签噪声的 Distantly-Supervised Named Entity Recognition 方法，其中包括 Uncertainty-aware Teacher Learning 和 Student-student Collaborative Learning 两种技术。实验结果表明，该方法在五个 DS-NER 数据集上优于其他的 teacher-student 方法。

Nov, 2023

基于置信度的多类正负样本学习在距离监督的命名实体识别中的应用

本文研究用多类正类未标签化学习方法和一种基于置信度的方法来解决远程监督下的命名实体识别问题，并在两个基准数据集上的实验表明该方法优于现有的远程监督命名实体识别方法。

Mar, 2022

自协同去噪学习提升远程监督命名实体识别

本文提出一种名为 “自我协同去噪学习” 的鲁棒学习模式，利用两个教师 - 学生网络相互学习进行标签去噪，以应对远程监督命名实体识别中的标签噪声问题。该方法在五个真实世界数据集上的实验结果表明其优于当前 DS-NER 去噪方法。

Oct, 2021