TL;DR本文提出了一种简单直接的方法,通过选择与所有正样本相似度高的负样本来训练,以提高四个远程监督 NER 数据集的性能表现,并且分析表明有必要区分真负样本和假负样本。
Abstract
distantly supervised named entity recognition (DS-NER) has been proposed to
exploit the automatically labeled training data instead of human annotations.
The distantly annotated datasets are often noisy and conta
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。