EMNLPOct, 2023

CleanCoNLL:一个几乎无噪声的命名实体识别数据集

TL;DR通过综合重新标定工作和自动一致性检查,修正了英文 CoNLL-03 中所有标签的 7.0%。我们的资源通过实验证实了最先进的方法在我们的数据上达到了显著更高的 F1 得分(97.1%),并且通过注释噪声的误差分析发现高资源粗粒度 NER 的理论上限尚未达到。