CLUENER2020: 面向中文的细粒度命名实体识别数据集及基准
我们提出了 CNER-UAV,这是一个针对无人机递送系统中地址解析任务而专门设计的精细化的中文命名实体识别数据集。该数据集涵盖了五个类别的各种各样的样本,可用于对命名实体识别模型进行全面的训练和评估。我们从真实的无人机递送系统收集数据,并进行了严格的数据清洗和去敏处理,以确保隐私和数据完整性。我们对我们的数据集进行了人工专家和大型语言模型的注释,并评估了经典的命名实体识别模型,并提供了深入的分析。该数据集和模型可在 https://github.com/zhhvvv/CNER-UAV 上公开获取。
Mar, 2024
本文提出了一个包含 4800 个手工标注的中文语料库,其用于细粒度实体分类。在实验中,我们展示了一些典型细粒度实体分类模型在我们的数据集上的表现,并显示了通过跨语言迁移学习提高中文细粒度实体分类的可能性。
Apr, 2020
本文构建了一个基于语篇水平的汉语文学语料库,提出两种标记方法来解决数据不一致性的问题,并介绍了几种常用模型进行实验,研究结果不仅展示了该数据集的可用性,而且为进一步的研究提供了基线。
Nov, 2017
通过从中国最大的社交媒体平台微博获取数据,我们编制了一个包含 5000 个微博帖子和 18326 个对应图片的中文多模态命名实体识别数据集(CMNER)。我们在 CMNER 上进行了基准实验,结果表明将图像与 NER 相结合的有效性。此外,我们还在公开的英文多模态命名实体识别数据集(Twitter2015)上进行了跨语言实验,结果证实了中文和英文多模态 NER 数据可以相互增强 NER 模型的性能。
Feb, 2024
本文提出了一种神经方法来解决中文命名实体识别的挑战,该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文,引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力,以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明,该方法特别适用于训练数据不足的情况下,可以有效提高中文命名实体识别的性能。
Apr, 2019
通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD,并使用减少冗余的数据修剪策略,在开放领域命名实体识别方面,提高了大型语言模型的泛化性能,优于 GPT-4 和以往的方法。
Jun, 2024
该研究介绍了 SemEval-2023 Task 2 的发现,该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法(如 WRITTENWORK,VEHICLE,MUSICALGRP),并研究了如何在单语和多语境以及噪声情况下实现。MultiCoNER 2 是 SemEval-2023 中最受欢迎的任务之一,从 47 个团队的 842 篇提交的论文中脱颖而出,并发现了媒体标题和产品名称是最具挑战性的实体类型,提出了将外部知识融入 transformer 模型中来实现最佳表现的方法,并注意到嘈杂的数据对模型性能有重要影响,对嘈杂数据中包含的复杂实体的 NER 鲁棒性的未来研究需要受到关注。
May, 2023
该论文发布了一份标准符合的,包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集,并使用不同的语言模型对其进行了评估,表明其对于 NLP 在 Hindi 方面有着重要的作用。
Apr, 2022
本文提出了 ChiNesE 数据集及一种基于学习的模型 Mulco,用于解决中文嵌套式实体识别问题,Mulco 方法通过多个范围识别嵌套结构中的命名实体,通过对 ChiNesE 数据集的实验表明,该方法的性能优于基线方法,并在 ACE2005 中文语料库上实现了最佳性能。
Nov, 2022
基于最大规模的多文类文学命名实体识别语料库,研究文学作品中不同类型实体的特征,并提出了几种基线命名实体识别模型,并进行了跨文类和跨域实验,结果表明文类差异显著影响 NER 性能,尽管不如文体领域与新闻领域之间的领域差异大,文学 NER 仍需要改进且由于文学作品中实体的高多样性,Out-of-Vocabulary(OOV)问题更具挑战性。
Nov, 2023