TL;DR通过使用负采样,避免 NER 模型的训练受到未标注实体的干扰,提出了一种能够有效应对未标注实体问题的方法。在实验中,该方法表现出很强的鲁棒性,甚至能够超越现有的基线模型。
Abstract
In many scenarios, named entity recognition (NER) models severely suffer from
unlabeled entity problem, where the entities of a sentence may not be fully
annotated. Through empirical studies performed on syntheti
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。