CREER:用于关系抽取和实体识别的大规模语料库
CNER 是一个用于提取西班牙语命名实体之间语义关系的工具集合,采用基于容器的架构,集成不同的命名实体识别和关系提取工具,拥有用户友好的界面,可以轻松输入文本或文件,便于流程化分析。该工具在西班牙语自然语言处理任务中展示了机器学习技术的有效应用,初步结果显示 CNER 具有潜在的前景和推动自然语言处理工具发展的潜力。
May, 2024
该研究旨在从非结构化或半结构化文本数据中检测企业实体对并识别它们之间的业务关系,并介绍了一个名为 CEntRE 的新数据集,它由公开的商业新闻数据构建而成,并通过人工标注和智能数据处理进行了精心处理。基于 CEntRE 数据集的六种模型的广泛实验表明了我们提出的数据集的挑战。
Oct, 2022
使用深度学习技术来从多个句子的语境中识别适当的语义关系,以解决现有机器学习模型难以从复杂句子中提取关系的问题。本文探讨了用于关系提取的各种深度学习模型的分析。
Sep, 2023
介绍了一种名为 MultiCoNER 的大型多语言数据集,可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试,并对其进行了评估。建立的模型都表现出了不俗的性能,但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。
Aug, 2022
本文构建了一个基于语篇水平的汉语文学语料库,提出两种标记方法来解决数据不一致性的问题,并介绍了几种常用模型进行实验,研究结果不仅展示了该数据集的可用性,而且为进一步的研究提供了基线。
Nov, 2017
本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER,它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降,与在 E-NER 数据集上训练和测试相比,F1 分数下降了 29.4%至 60.4%。
Dec, 2022
本文介绍了使用 Universal Named Entity 框架来自动生成注释语料库的应用。通过使用从维基百科数据和元数据以及 DBpedia 信息中提取出来的工作流程,我们生成了一个英语数据集并进行了描述和评估。此外,我们进行了一系列实验,以在精确度,召回率和 F1-measure 方面改善注释。最终数据集可供使用,建立的工作流程可应用于任何具有现有维基百科和 DBpedia 的语言。作为未来研究的一部分,我们打算继续改进注释过程并将其扩展到其他语言。
Dec, 2022
我们为塔加洛语开发了一个命名实体识别(NER)数据集,填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库,并由母语人士迭代标注。该数据集包含约 7.8k 个文档,涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后,我们公开发布了数据和处理代码,以激励未来在塔加洛语自然语言处理方面的研究工作。
Nov, 2023
本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器,不需要任何人工标注数据集或语言特定的资源,通过生成分布式词表示,达到竞争性的表现,并提出了一种新的远程评估方法。
Oct, 2014
该研究介绍了 MSNER,一个多语种语音语料库,用于命名实体识别,并提供了用于训练、验证和评估的数据集,同时推出了一个高效的标注工具。
May, 2024