CoNLL#: CoNLL-03 英文细粒度错误分析和校正测试集

COLINGMay, 2024

CoNLL#: CoNLL-03 英文细粒度错误分析和校正测试集

CoNLL#: Fine-grained Error Analysis and a Corrected Test Set for CoNLL-03 English

Andrew Rueda, Elena Álvarez Mellado, Constantine Lignos

TL;DR现代命名实体识别系统在更大更强大的神经模型时代中稳步提高性能。本文通过对最高性能 NER 模型的测试输出进行深入分析，并在测试集上引入新的文档级注释，对其性能进行精细评估。我们通过对错误进行分类，超越 F1 分数，解释 NER 的真实技术水平并指导未来的研究。我们回顾了之前纠正测试集各种缺陷的尝试，并引入了一个新的纠正版本 CoNLL#，解决了其系统性和最常见的错误，从而允许进行低噪声、可解释的错误分析。

Abstract

Modern named entity recognition systems have steadily improved performance in the age of larger and more powerful neural models. However, over the past several years, the state-of-the-art has seemingly hit anothe

named entity recognition neural models conll-03 english dataset fine-grained evaluation error analysis

发现论文，激发创造

CleanCoNLL：一个几乎无噪声的命名实体识别数据集

通过综合重新标定工作和自动一致性检查，修正了英文 CoNLL-03 中所有标签的 7.0%。我们的资源通过实验证实了最先进的方法在我们的数据上达到了显著更高的 F1 得分（97.1%），并且通过注释噪声的误差分析发现高资源粗粒度 NER 的理论上限尚未达到。

Oct, 2023

CoNLL-2003 命名实体标注器在 2023 年依然有效吗？

本文通过构建新的标注测试集 CoNLL++ 来评估 20 多种不同模型对现代数据的泛化能力。实验结果表明，模型的泛化能力与模型的规模和预训练数据密切相关，而标准评估方法可能低估了过去 20 年命名实体识别方面取得的进展。

Dec, 2022

命名实体识别 -- 是否存在局限性？

本文详细分析了 Stanford、CMU、FLAIR、ELMO 和 BERT 模型的错误类型，揭示了它们的优缺点和共同限制，同时介绍了改进注释、训练过程和检查模型质量和稳定性的新技术。研究结果基于英语的 CoNLL 2003 数据集。

Oct, 2019

SemEval-2023 任务 2: 细粒度多语种命名实体识别（MultiCoNER 2）

该研究介绍了 SemEval-2023 Task 2 的发现，该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法（如 WRITTENWORK，VEHICLE，MUSICALGRP），并研究了如何在单语和多语境以及噪声情况下实现。MultiCoNER 2 是 SemEval-2023 中最受欢迎的任务之一，从 47 个团队的 842 篇提交的论文中脱颖而出，并发现了媒体标题和产品名称是最具挑战性的实体类型，提出了将外部知识融入 transformer 模型中来实现最佳表现的方法，并注意到嘈杂的数据对模型性能有重要影响，对嘈杂数据中包含的复杂实体的 NER 鲁棒性的未来研究需要受到关注。

May, 2023

神经模型泛化再思考：命名实体识别案例研究

本文在命名实体识别任务上，提出了一种新的泛化能力指标，通过在多个角度分析已有模型在泛化行为上的不同表现，历经深入实验分析，得出了现有神经网络命名实体识别模型在数据集偏差、注释错误等方面存在局限性，并提出了改进方向的训练方法。此外，作者还开源了一个涵盖最近 NER 研究论文的综述项目。

Jan, 2020

注释错误与 NER：OntoNotes 5.0 研究

该研究通过使用三种简单技术在 OntoNotes 5.0 语料库中检测注释错误，对英文命名实体识别（Named Entity Recognition，NER）的训练集、开发集和测试集进行了大量修正，提高了 1.23% 的整体 F 分数，对某些实体类型的改进超过 10%。这些技术可应用于其他 NER 数据集和其他序列标记任务。

Jun, 2024

CrossWeigh：从不完美标注中训练命名实体识别器

本研究深入探讨了一种广泛采用的命名实体识别基准数据集 CoNLL03 NER，并成功地发现和纠正了 5.38％测试句子中的标签错误。研究人员还提出了一个名为 CrossWeigh 的简单但有效的框架来处理 NER 模型训练过程中的标签错误，实验证明其显著提高了各种 NER 模型在三个数据集上的性能。

Sep, 2019

IXA/Cogcomp 参加 SemEval-2023 第 2 项任务：基于知识库的上下文增强的多语言命名实体识别

本文介绍了一种新的命名实体识别级联方法，它由三个步骤组成：首先在输入句子中识别候选实体，然后将每个候选实体链接到现有的知识库中，最后预测每个实体候选的细粒度类别。实验证明，外部知识库在准确分类细粒度和新兴实体方面具有重要意义，并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能，即使在使用高资源语言的知识库情况下，也能在低资源语言环境中获得良好的表现。

Apr, 2023

E-NER -- 一份法律文本的命名实体识别注释语料库

本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER，它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降，与在 E-NER 数据集上训练和测试相比，F1 分数下降了 29.4％至 60.4％。

Dec, 2022

联邦命名实体识别

本文通过将联邦学习应用在命名实体识别任务中，使用具有语言无关性的 CoNLL-2003 数据集作为基准数据集，Bi-LSTM-CRF 模型作为基准模型，研究了联邦学习的性能，展示了联邦学习相对于集中式模型在不同的异构学习环境下的性能降低，并讨论了联邦学习在自然语言处理应用领域中的现存挑战和未来研究方向。

Mar, 2022