CLUENER2020: 面向中文的细粒度命名实体识别数据集及基准

Jan, 2020

CLUENER2020: 面向中文的细粒度命名实体识别数据集及基准

CLUENER2020: Fine-grained Named Entity Recognition Dataset and Benchmark for Chinese

Liang Xu, Yu tong, Qianqian Dong, Yixuan Liao, Cong Yu...

TL;DR介绍了 CLUE 组织发布的 NER 数据集 CLUENER2020 ，它是一个细粒度的、为中文命名实体识别而设计的数据集，包含 10 类别，并且更具挑战性。针对该数据集，实现了几种当前最先进的序列标记任务方法，报告了人类表现及其分析，并发布了该数据集、基线和排行榜。

Abstract

In this paper, we introduce the ner dataset from clue organization (CLUENER2020), a well-defined fine-grained dataset for →

ner dataset named entity recognition chinese fine-grained dataset clue organization

发现论文，激发创造

LLM 能否代替人工标注？无人机投递的精细化中文地址实体识别数据集案例研究

我们提出了 CNER-UAV，这是一个针对无人机递送系统中地址解析任务而专门设计的精细化的中文命名实体识别数据集。该数据集涵盖了五个类别的各种各样的样本，可用于对命名实体识别模型进行全面的训练和评估。我们从真实的无人机递送系统收集数据，并进行了严格的数据清洗和去敏处理，以确保隐私和数据完整性。我们对我们的数据集进行了人工专家和大型语言模型的注释，并评估了经典的命名实体识别模型，并提供了深入的分析。该数据集和模型可在 https://github.com/zhhvvv/CNER-UAV 上公开获取。

Mar, 2024

一个用于细粒度实体类型标注的中文语料库

本文提出了一个包含 4800 个手工标注的中文语料库，其用于细粒度实体分类。在实验中，我们展示了一些典型细粒度实体分类模型在我们的数据集上的表现，并显示了通过跨语言迁移学习提高中文细粒度实体分类的可能性。

Apr, 2020

中文文学文本的语篇级别命名实体识别和关系抽取数据集

本文构建了一个基于语篇水平的汉语文学语料库，提出两种标记方法来解决数据不一致性的问题，并介绍了几种常用模型进行实验，研究结果不仅展示了该数据集的可用性，而且为进一步的研究提供了基线。

Nov, 2017

CMNER: 基于社交媒体的中文多模态命名实体识别数据集

通过从中国最大的社交媒体平台微博获取数据，我们编制了一个包含 5000 个微博帖子和 18326 个对应图片的中文多模态命名实体识别数据集（CMNER）。我们在 CMNER 上进行了基准实验，结果表明将图像与 NER 相结合的有效性。此外，我们还在公开的英文多模态命名实体识别数据集（Twitter2015）上进行了跨语言实验，结果证实了中文和英文多模态 NER 数据可以相互增强 NER 模型的性能。

Feb, 2024

CNN-LSTM-CRF 和词语分割联合训练实现的神经网络中文命名实体识别

本文提出了一种神经方法来解决中文命名实体识别的挑战，该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文，引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力，以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明，该方法特别适用于训练数据不足的情况下，可以有效提高中文命名实体识别的性能。

Apr, 2019

跨数据集和语言学习开放式命名实体识别的通用实体分类

通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD，并使用减少冗余的数据修剪策略，在开放领域命名实体识别方面，提高了大型语言模型的泛化性能，优于 GPT-4 和以往的方法。

Jun, 2024

SemEval-2023 任务 2: 细粒度多语种命名实体识别（MultiCoNER 2）

该研究介绍了 SemEval-2023 Task 2 的发现，该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法（如 WRITTENWORK，VEHICLE，MUSICALGRP），并研究了如何在单语和多语境以及噪声情况下实现。MultiCoNER 2 是 SemEval-2023 中最受欢迎的任务之一，从 47 个团队的 842 篇提交的论文中脱颖而出，并发现了媒体标题和产品名称是最具挑战性的实体类型，提出了将外部知识融入 transformer 模型中来实现最佳表现的方法，并注意到嘈杂的数据对模型性能有重要影响，对嘈杂数据中包含的复杂实体的 NER 鲁棒性的未来研究需要受到关注。

May, 2023

HiNER：一个大规模的印地语命名实体识别数据集

该论文发布了一份标准符合的，包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集，并使用不同的语言模型对其进行了评估，表明其对于 NLP 在 Hindi 方面有着重要的作用。

Apr, 2022

Mulco：通过多重范围识别中文嵌套命名实体

本文提出了 ChiNesE 数据集及一种基于学习的模型 Mulco，用于解决中文嵌套式实体识别问题，Mulco 方法通过多个范围识别嵌套结构中的命名实体，通过对 ChiNesE 数据集的实验表明，该方法的性能优于基线方法，并在 ACE2005 中文语料库上实现了最佳性能。

Nov, 2022

中文小说多种类型命名实体识别语料库

基于最大规模的多文类文学命名实体识别语料库，研究文学作品中不同类型实体的特征，并提出了几种基线命名实体识别模型，并进行了跨文类和跨域实验，结果表明文类差异显著影响 NER 性能，尽管不如文体领域与新闻领域之间的领域差异大，文学 NER 仍需要改进且由于文学作品中实体的高多样性，Out-of-Vocabulary（OOV）问题更具挑战性。

Nov, 2023