kpfriends 参加 SemEval-2022 任务二:NEAMER - 命名实体增强的多词表达式识别器
本文介绍了 DAMO-NLP 提出的基于维基百科的多语言知识库,用于提供上下文信息以帮助在短文本和低上下文环境中的多义和复杂命名实体识别。通过将知识库中的相关上下文与输入句子进行匹配,我们的系统能够有效地检索相关上下文信息并将其用于输入句子的增强,从而更好地捕捉上下文信息表示。我们的系统在 MultiCoNER 共享任务中获得了 13 个中 10 个的胜利。
Mar, 2022
本文描述我们在 SemEval 2022 任务 11 中使用 Transformer 层自适应地整合多个预训练语言模型进行实体识别,在波斯语和荷兰语方面表现优异。
May, 2022
本文探讨在自然语言处理领域中识别命名实体的挑战,并着重分析代码混合文本在语言上的复杂性。作者通过利用多语言数据实现了对代码混合数据集中的命名实体识别,并取得了 0.7044 的加权平均 F1 值,比基准线高 6%。
Jun, 2022
本文介绍了一个通用的命名实体识别系统,其利用来自于 Wikipedia 的知识库信息,将其与输入文本进行拼接并使用 Transformer 模型进行训练,用于解决多语言、低上下文、存在拼写错误或者错别字的情况下进行的 MultiCoNER II 任务,取得了 13 个赛道中 2 个第一名、4 个第二名、1 个第三名的成绩。
May, 2023
本文主要介绍了一个针对多语种细粒度命名实体识别的统一检索增强系统(U-RaNER),通过整合基于实体的 Wikidata 知识库来增强检索上下文的范围,探索各种搜索策略,提高检索知识的质量。研究团队 - DAMO-NLP 在 MultiCoNER2 共享任务中的表现优于 ChatGPT,证明了该系统的优越性。
May, 2023
使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务,通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中,我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。
Apr, 2022
本文介绍了一种新的命名实体识别级联方法,它由三个步骤组成:首先在输入句子中识别候选实体,然后将每个候选实体链接到现有的知识库中,最后预测每个实体候选的细粒度类别。实验证明,外部知识库在准确分类细粒度和新兴实体方面具有重要意义,并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能,即使在使用高资源语言的知识库情况下,也能在低资源语言环境中获得良好的表现。
Apr, 2023
该研究介绍了 SemEval-2023 Task 2 的发现,该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法(如 WRITTENWORK,VEHICLE,MUSICALGRP),并研究了如何在单语和多语境以及噪声情况下实现。MultiCoNER 2 是 SemEval-2023 中最受欢迎的任务之一,从 47 个团队的 842 篇提交的论文中脱颖而出,并发现了媒体标题和产品名称是最具挑战性的实体类型,提出了将外部知识融入 transformer 模型中来实现最佳表现的方法,并注意到嘈杂的数据对模型性能有重要影响,对嘈杂数据中包含的复杂实体的 NER 鲁棒性的未来研究需要受到关注。
May, 2023
提出了一种新的多任务方法,通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务,利用多任务神经网络构架来学习更高阶特征表示,以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。
Jun, 2019
本文介绍了我们参加 SemEval-2022 多语言复杂命名实体识别英文赛道的基于 Transformer 预训练模型的简单有效基准系统,取得了 72.50% 的 F1 得分,同时讨论了通过实体链接进行数据增强的方法。
Feb, 2022