annotation noise is widespread in datasets, but manually revising a flawed
corpus is time-consuming and error-prone. Hence, given the prior knowledge in
pre-trained language models and the expected uniformity acr
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。
本文旨在探索基于模型的方法来表征 RE 数据集 TACRED 中噪声的主要原因,并识别潜在的噪声实例。通过分析预测结果和 SOTA 模型的性能,我们发现 TACRED 数据集中的噪声主要来自被标记为无关系的实例。针对第二个目标,我们探索了两种基于最近邻的策略来自动识别可能存在噪声的实例,进行剔除和重新注释。实验证据显示,基于这些策略进行的模型再训练可以显著提升性能。