CleanCoNLL:一个几乎无噪声的命名实体识别数据集
现代命名实体识别系统在更大更强大的神经模型时代中稳步提高性能。本文通过对最高性能 NER 模型的测试输出进行深入分析,并在测试集上引入新的文档级注释,对其性能进行精细评估。我们通过对错误进行分类,超越 F1 分数,解释 NER 的真实技术水平并指导未来的研究。我们回顾了之前纠正测试集各种缺陷的尝试,并引入了一个新的纠正版本 CoNLL#,解决了其系统性和最常见的错误,从而允许进行低噪声、可解释的错误分析。
May, 2024
本文通过构建新的标注测试集 CoNLL++ 来评估 20 多种不同模型对现代数据的泛化能力。实验结果表明,模型的泛化能力与模型的规模和预训练数据密切相关,而标准评估方法可能低估了过去 20 年命名实体识别方面取得的进展。
Dec, 2022
本研究深入探讨了一种广泛采用的命名实体识别基准数据集 CoNLL03 NER,并成功地发现和纠正了 5.38%测试句子中的标签错误。研究人员还提出了一个名为 CrossWeigh 的简单但有效的框架来处理 NER 模型训练过程中的标签错误,实验证明其显著提高了各种 NER 模型在三个数据集上的性能。
Sep, 2019
介绍了一种名为 MultiCoNER 的大型多语言数据集,可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试,并对其进行了评估。建立的模型都表现出了不俗的性能,但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。
Aug, 2022
我们提出了 MULTICONER V2 数据集,这是一个用于细粒度命名实体识别的数据集,涵盖了 12 种语言中的 33 个实体类别,在单语和多语环境下使用。该数据集的目标是解决 NER 中的实际挑战,包括有效处理包括电影标题等复杂实体的细粒度类别,以及由输入错误或 OCR 错误产生的噪声导致的性能下降。该数据集从维基百科和维基数据等开放资源中编译而来,并且是公开可用的。基于 XLM-RoBERTa 基准进行的评估突显了 MULTICONER V2 所带来的独特挑战:(i) 细粒度分类很困难,在所有语言上的宏 F1 分数仅为 0.63;(ii) 损坏策略显著影响性能,相对于非实体损坏,实体损坏导致的性能下降了 9%。这凸显了实体噪声相对于环境噪声的较大影响。
Oct, 2023
本文提出一种基于 BERT 和自监督学习、标签预处理来优化部分标记数据集上的命名实体识别 (NER) 模型的方法。我们的方法在处理缺乏标记的数据集时显著优于基于 LSTM 的标签预处理基线,并证明在 CoNLL 2003 数据集上使用 RoBERTa 模型只标记 10%的实体即可达到与 50%实体标记的基线模型相同的性能。
Nov, 2022
提出了一个包含 6 种真实噪音的 NER 基准,证明真实噪音比模拟噪音更具挑战性,并展示当前最先进的噪音鲁棒学习模型远未达到其理论可达的上限。
May, 2024
该研究采用校准置信度估计的方式来研究深度学习在实际场景下的命名实体识别问题,提出了一种基于本地和全局独立性假设的置信得分估计策略,并结合 CRF 模型来隔离低置信度标签,同时提出了一种基于实体标签结构的置信度校准方法,最后将其集成到自我训练框架中进行性能提升,在四种语言和遥远标注场景下的实验证明了该方法的有效性。
Apr, 2021
本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER,它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降,与在 E-NER 数据集上训练和测试相比,F1 分数下降了 29.4%至 60.4%。
Dec, 2022
通过提出 ConNER 一种新型一致性训练方法,习得一个对扰动和数据具有鲁棒性的模型,该方法通过对标注和未标注数据的翻译和丢失操作的表现进行一致性训练,提高了跨语言自适应性能,并在各种基线方法上取得了一致的改进效果。
Nov, 2022