利用多语言 Transformer 使用伪标签增强多语言和代码混合的复杂命名实体识别 —— 在 SemEval-2022 任务 11 中的 UM6P-CS 模型

Apr, 2022

利用多语言 Transformer 使用伪标签增强多语言和代码混合的复杂命名实体识别 —— 在 SemEval-2022 任务 11 中的 UM6P-CS 模型

UM6P-CS at SemEval-2022 Task 11: Enhancing Multilingual and Code-Mixed Complex Named Entity Recognition via Pseudo Labels using Multilingual Transformer

PDF

Abdellah El Mekki, Abdelkader El Mahdaouy, Mohammed Akallouch, Ismail Berrada, Ahmed Khoumsi

TL;DR使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务，通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中，我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。

Abstract

Building real-world complex named entity recognition (NER) systems is a challenging task. This is due to the complexity and ambiguity of named entities that appear in various contexts such as short input sentences, emerging entities, and complex entities. Besides, real-world queries ar

named entity recognition multilingual code-mixed contextualized representation self-training mechanism

发现论文，激发创造

利用多语言数据的混合编码命名实体识别：SemEval-2022 任务 11 上的 CMNEROne

本文探讨在自然语言处理领域中识别命名实体的挑战，并着重分析代码混合文本在语言上的复杂性。作者通过利用多语言数据实现了对代码混合数据集中的命名实体识别，并取得了 0.7044 的加权平均 F1 值，比基准线高 6%。

Jun, 2022

LLM-RM 在 SemEval-2023 任务 2 中的应用：利用 XLM-RoBERTa 进行多语言复杂命名实体识别

通过在所有提供的 12 种语言数据集上微调 XLM-Roberta 基础模型，利用跨语言表示方法解决 NER 多语言复杂命名实体识别任务，达到 SemEval 2023 任务 2 的最佳表现。

May, 2023

Qtrade AI 在 SemEval-2022 任务 11 中：多语言命名实体识别任务的统一框架

本文介绍了我们在 SemEval 2022 Task 11：MultiCoNER Multilingual Complex Named Entity Recognition 中取得的成果，即：在多语言 NER 任务中，提供了一个统一的框架；在低资源代码混合 NER 任务中，采用了几种简单的数据增强方法；在中文任务中，提出了一种可以捕捉中文词汇语义、词汇边界和词汇图结构信息的模型。最后，我们的系统在子任务 11、12 和 9 的测试阶段分别获得了 77.66、84.35 和 74.00 的宏 F1 得分。

Apr, 2022

LMN 在 SemEval-2022 任务 11 中：基于 Transformer 的英文命名实体识别系统

本文介绍了我们参加 SemEval-2022 多语言复杂命名实体识别英文赛道的基于 Transformer 预训练模型的简单有效基准系统，取得了 72.50% 的 F1 得分，同时讨论了通过实体链接进行数据增强的方法。

Feb, 2022

MultiCoNER：一个用于复杂命名实体识别的大型多语言数据集

介绍了一种名为 MultiCoNER 的大型多语言数据集，可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试，并对其进行了评估。建立的模型都表现出了不俗的性能，但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。

Aug, 2022

SemEval-2023 任务 2: 细粒度多语种命名实体识别（MultiCoNER 2）

该研究介绍了 SemEval-2023 Task 2 的发现，该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法（如 WRITTENWORK，VEHICLE，MUSICALGRP），并研究了如何在单语和多语境以及噪声情况下实现。MultiCoNER 2 是 SemEval-2023 中最受欢迎的任务之一，从 47 个团队的 842 篇提交的论文中脱颖而出，并发现了媒体标题和产品名称是最具挑战性的实体类型，提出了将外部知识融入 transformer 模型中来实现最佳表现的方法，并注意到嘈杂的数据对模型性能有重要影响，对嘈杂数据中包含的复杂实体的 NER 鲁棒性的未来研究需要受到关注。

May, 2023

SemEval-2022 11 任务：语义模糊环境中低资源语言的复杂命名实体识别

使用预训练的语言模型和整词遮罩技术，结合 CRF、BiLSTMs、线性分类器等多种神经网络架构，在中文和西班牙语两种低资源语言的命名实体识别任务上超越基准，并在任务中表现最佳模型占据竞争性位置。

Jul, 2022

SemEval-2022 任务 11 中的多语言人士：基于 Transformer 的复杂 NER 架构

本文研究了英文语言的复杂 NER 任务，使用预训练语言模型如 BERT 取得竞争性成绩，并 qualitatively 分析了多种架构在此任务上的表现，最佳模型相比 baseline F1-score 提升了超过 9%。

Apr, 2022

大型语言模型不是你所需的全部

本文描述了解决 SemEval 2023 Task 2：MultiCoNER II（多语言复杂命名实体识别）问题所构建的体系结构和系统。我们评估了两种方法：传统的条件随机场模型和经过自定义头部微调的大型语言模型（LLM），并比较了这两种方法。我们探索的新想法有：1）衰减辅助损失（带剩余项）- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中；2）三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式；3）任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM，包括 GPT-3，并在最终模型中使用了多种 dropout 和其他超参数设置，该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值，并在测试数据上达到了 0.67/0.61。我们证明，虽然预训练的 LLM 本身相对传统模型带来了很大的改进，但通过上述额外特征 / 损失 / 模型工程技术的增强，我们还可以显著提高宏观 F1 分数。

Jan, 2024

使用平行语料库的跨语言命名实体识别：一种使用 XLM-RoBERTa 对齐的新方法

本文针对跨语言 NER 任务，提出了一种基于平行语料库的名词实体对齐模型，并在没有监督模型的情况下将 NER 从英语部分传递到目标语言中，以此获得更自然流畅和细微差别的数据集来提高模型性能，在 4 种目标语言的基准数据集上得到了具有竞争力的结果。

Jan, 2021