TL;DR本研究提出了一种基于领域知识的命名实体识别方法,使用领域词典和标注数据来提高低资源领域中的命名实体识别效果,避免大规模数据调整的同时,在科技设备领域数据集上实现了显著的 F1 分数提升。
Abstract
In recent years, named entity recognition has always been a popular research
in the field of natural language processing, while traditional deep learning
methods require a large amount of labeled data for model t
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。