Distant and weak supervision allow to obtain large amounts of labeled
training data quickly and cheaply, but these automatic annotations tend to
contain a high amount of errors. A popular technique to overcome the negative
effects of these noisy labels is noise modelling where the unde
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。