ACLMar, 2021

评估 NER 在难识别实体上的召回率

TL;DR本文提出了 Tough Mentions Recall (TMR) 指标来补充传统的命名实体识别 (NER) 评估方法,并通过评估使用五个最近的神经架构对英语、西班牙语和荷兰语语料库进行演示。我们检测了 BERT 和 Flair 在两个英语 NER 语料库上的性能差异,并确定了当前模型在西班牙语中性能的薄弱点,我们得出结论,TMR 指标能够区分原本得分相似的系统,并在性能上发现模式,这些模式在整体精确度、召回率和 F1 上无法发现。