MultiCoNER v2: 用于细粒度和嘈杂的命名实体识别的大型多语言数据集

EMNLPOct, 2023

MultiCoNER v2: 用于细粒度和嘈杂的命名实体识别的大型多语言数据集

MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition

Besnik Fetahu, Zhiyu Chen, Sudipta Kar, Oleg Rokhlenko, Shervin Malmasi

TL;DR我们提出了 MULTICONER V2 数据集，这是一个用于细粒度命名实体识别的数据集，涵盖了 12 种语言中的 33 个实体类别，在单语和多语环境下使用。该数据集的目标是解决 NER 中的实际挑战，包括有效处理包括电影标题等复杂实体的细粒度类别，以及由输入错误或 OCR 错误产生的噪声导致的性能下降。该数据集从维基百科和维基数据等开放资源中编译而来，并且是公开可用的。基于 XLM-RoBERTa 基准进行的评估突显了 MULTICONER V2 所带来的独特挑战：(i) 细粒度分类很困难，在所有语言上的宏 F1 分数仅为 0.63；(ii) 损坏策略显著影响性能，相对于非实体损坏，实体损坏导致的性能下降了 9%。这凸显了实体噪声相对于环境噪声的较大影响。

Abstract

We present MULTICONER V2, a dataset for fine-grained named entity recognition covering 33 entity classes across 12 languages, in both mono

named entity recognition fine-grained dataset multilingual performance degradation

发现论文，激发创造

MultiCoNER：一个用于复杂命名实体识别的大型多语言数据集

介绍了一种名为 MultiCoNER 的大型多语言数据集，可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试，并对其进行了评估。建立的模型都表现出了不俗的性能，但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。

Aug, 2022

SemEval-2023 任务 2: 细粒度多语种命名实体识别（MultiCoNER 2）

该研究介绍了 SemEval-2023 Task 2 的发现，该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法（如 WRITTENWORK，VEHICLE，MUSICALGRP），并研究了如何在单语和多语境以及噪声情况下实现。MultiCoNER 2 是 SemEval-2023 中最受欢迎的任务之一，从 47 个团队的 842 篇提交的论文中脱颖而出，并发现了媒体标题和产品名称是最具挑战性的实体类型，提出了将外部知识融入 transformer 模型中来实现最佳表现的方法，并注意到嘈杂的数据对模型性能有重要影响，对嘈杂数据中包含的复杂实体的 NER 鲁棒性的未来研究需要受到关注。

May, 2023

利用多语言 Transformer 使用伪标签增强多语言和代码混合的复杂命名实体识别 —— 在 SemEval-2022 任务 11 中的 UM6P-CS 模型

使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务，通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中，我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。

Apr, 2022

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

利用多语言数据的混合编码命名实体识别：SemEval-2022 任务 11 上的 CMNEROne

本文探讨在自然语言处理领域中识别命名实体的挑战，并着重分析代码混合文本在语言上的复杂性。作者通过利用多语言数据实现了对代码混合数据集中的命名实体识别，并取得了 0.7044 的加权平均 F1 值，比基准线高 6%。

Jun, 2022

2M-NER：利用语言和模态融合进行多语言和多模态 NER 的对比学习

本文介绍了一项新模型 2M-NER，通过对比学习对齐文本和图像表示，并整合多模态合作模块，从而有效地描述了两种模态之间的交互，实现了在多语言和多模态 NER 任务中 F1 得分最高的结果。

Apr, 2024

CleanCoNLL：一个几乎无噪声的命名实体识别数据集

通过综合重新标定工作和自动一致性检查，修正了英文 CoNLL-03 中所有标签的 7.0%。我们的资源通过实验证实了最先进的方法在我们的数据上达到了显著更高的 F1 得分（97.1%），并且通过注释噪声的误差分析发现高资源粗粒度 NER 的理论上限尚未达到。

Oct, 2023

IXA/Cogcomp 参加 SemEval-2023 第 2 项任务：基于知识库的上下文增强的多语言命名实体识别

本文介绍了一种新的命名实体识别级联方法，它由三个步骤组成：首先在输入句子中识别候选实体，然后将每个候选实体链接到现有的知识库中，最后预测每个实体候选的细粒度类别。实验证明，外部知识库在准确分类细粒度和新兴实体方面具有重要意义，并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能，即使在使用高资源语言的知识库情况下，也能在低资源语言环境中获得良好的表现。

Apr, 2023

POLYGLOT-NER：大规模多语言命名实体识别

本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器，不需要任何人工标注数据集或语言特定的资源，通过生成分布式词表示，达到竞争性的表现，并提出了一种新的远程评估方法。

Oct, 2014

Qtrade AI 在 SemEval-2022 任务 11 中：多语言命名实体识别任务的统一框架

本文介绍了我们在 SemEval 2022 Task 11：MultiCoNER Multilingual Complex Named Entity Recognition 中取得的成果，即：在多语言 NER 任务中，提供了一个统一的框架；在低资源代码混合 NER 任务中，采用了几种简单的数据增强方法；在中文任务中，提出了一种可以捕捉中文词汇语义、词汇边界和词汇图结构信息的模型。最后，我们的系统在子任务 11、12 和 9 的测试阶段分别获得了 77.66、84.35 和 74.00 的宏 F1 得分。

Apr, 2022