EMNLPOct, 2023

MultiCoNER v2: 用于细粒度和嘈杂的命名实体识别的大型多语言数据集

TL;DR我们提出了 MULTICONER V2 数据集,这是一个用于细粒度命名实体识别的数据集,涵盖了 12 种语言中的 33 个实体类别,在单语和多语环境下使用。该数据集的目标是解决 NER 中的实际挑战,包括有效处理包括电影标题等复杂实体的细粒度类别,以及由输入错误或 OCR 错误产生的噪声导致的性能下降。该数据集从维基百科和维基数据等开放资源中编译而来,并且是公开可用的。基于 XLM-RoBERTa 基准进行的评估突显了 MULTICONER V2 所带来的独特挑战:(i) 细粒度分类很困难,在所有语言上的宏 F1 分数仅为 0.63;(ii) 损坏策略显著影响性能,相对于非实体损坏,实体损坏导致的性能下降了 9%。这凸显了实体噪声相对于环境噪声的较大影响。