TL;DR通过添加噪声层到神经网络结构中,我们可以处理噪声并联合清洁和嘈杂数据进行训练,从而提高低资源 NER 任务的性能,最多可提高 35%。
Abstract
Manually labeled corpora are expensive to create and often not available for
low-resource languages or domains. automatic labeling approaches are an
alternative way to obtain labeled data in a quicker and cheaper way. However,
these labels often contain more errors which can deteriorat
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。