CREER：用于关系抽取和实体识别的大规模语料库

Apr, 2022

CREER：用于关系抽取和实体识别的大规模语料库

CREER: A Large-Scale Corpus for Relation Extraction and Entity Recognition

Yu-Siou Tang, Chung-Hsien Wu

TL;DR本文介绍了 CREER 数据集的设计和使用，该数据集注释了丰富的英语语法和语义属性，使用 Stanford CoreNLP Annotator 从维基百科明文中捕获语言结构，并遵循广泛使用的语言和语义注释，可以用于大多数自然语言处理任务以及数据集的扩展。这个大型监督式数据集可作为未来改进 NLP 任务性能的基础，并通过链接公开发布。

Abstract

We describe the design and use of the creer dataset, a large corpus annotated with rich english grammar and semantic attributes. The

creer dataset english grammar semantic attributes stanford corenlp annotator natural language processing

发现论文，激发创造

CNER: 一个命名实体关系分类工具

CNER 是一个用于提取西班牙语命名实体之间语义关系的工具集合，采用基于容器的架构，集成不同的命名实体识别和关系提取工具，拥有用户友好的界面，可以轻松输入文本或文件，便于流程化分析。该工具在西班牙语自然语言处理任务中展示了机器学习技术的有效应用，初步结果显示 CNER 具有潜在的前景和推动自然语言处理工具发展的潜力。

May, 2024

CEntRE: 用于企业之间关系抽取的中文段落级数据集

该研究旨在从非结构化或半结构化文本数据中检测企业实体对并识别它们之间的业务关系，并介绍了一个名为 CEntRE 的新数据集，它由公开的商业新闻数据构建而成，并通过人工标注和智能数据处理进行了精心处理。基于 CEntRE 数据集的六种模型的广泛实验表明了我们提出的数据集的挑战。

Oct, 2022

基于深度学习模型的上下文关系抽取的比较分析

使用深度学习技术来从多个句子的语境中识别适当的语义关系，以解决现有机器学习模型难以从复杂句子中提取关系的问题。本文探讨了用于关系提取的各种深度学习模型的分析。

Sep, 2023

MultiCoNER：一个用于复杂命名实体识别的大型多语言数据集

介绍了一种名为 MultiCoNER 的大型多语言数据集，可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试，并对其进行了评估。建立的模型都表现出了不俗的性能，但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。

Aug, 2022

中文文学文本的语篇级别命名实体识别和关系抽取数据集

本文构建了一个基于语篇水平的汉语文学语料库，提出两种标记方法来解决数据不一致性的问题，并介绍了几种常用模型进行实验，研究结果不仅展示了该数据集的可用性，而且为进一步的研究提供了基线。

Nov, 2017

E-NER -- 一份法律文本的命名实体识别注释语料库

本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER，它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降，与在 E-NER 数据集上训练和测试相比，F1 分数下降了 29.4％至 60.4％。

Dec, 2022

构建并评估通用命名实体识别英语语料库

本文介绍了使用 Universal Named Entity 框架来自动生成注释语料库的应用。通过使用从维基百科数据和元数据以及 DBpedia 信息中提取出来的工作流程，我们生成了一个英语数据集并进行了描述和评估。此外，我们进行了一系列实验，以在精确度，召回率和 F1-measure 方面改善注释。最终数据集可供使用，建立的工作流程可应用于任何具有现有维基百科和 DBpedia 的语言。作为未来研究的一部分，我们打算继续改进注释过程并将其扩展到其他语言。

Dec, 2022

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

POLYGLOT-NER：大规模多语言命名实体识别

本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器，不需要任何人工标注数据集或语言特定的资源，通过生成分布式词表示，达到竞争性的表现，并提出了一种新的远程评估方法。

Oct, 2014

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024