CNER: 一个命名实体关系分类工具
本文介绍了 CREER 数据集的设计和使用,该数据集注释了丰富的英语语法和语义属性,使用 Stanford CoreNLP Annotator 从维基百科明文中捕获语言结构,并遵循广泛使用的语言和语义注释,可以用于大多数自然语言处理任务以及数据集的扩展。这个大型监督式数据集可作为未来改进 NLP 任务性能的基础,并通过链接公开发布。
Apr, 2022
该论文介绍了 NeuroNER,一种基于人工神经网络的易于使用的命名实体识别工具。用户可以使用图形化的 Web 用户界面(BRAT)注释实体,从而训练 ANN,并预测新文本中实体的位置和类别。NeuroNER 使这个注释 - 训练 - 预测流程变得平滑和易于访问。
May, 2017
本文提出了一种神经方法来解决中文命名实体识别的挑战,该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文,引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力,以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明,该方法特别适用于训练数据不足的情况下,可以有效提高中文命名实体识别的性能。
Apr, 2019
本文介绍了在 BanglaCoNER 数据集上使用条件随机场(CRF)和微调变压器模型(如 BanglaBERT)的两种方法来解决 Bangla 复杂命名实体识别挑战的获胜解决方案。 深入探究了数据集,发现该数据集具有 7 个不同的 NER 标记,具有英语单词的明显存在,表明该数据集是合成的。同时,我们实验证明了基于深度学习的模型是自然语言处理中更有效的模型之一,特别是在 CNER 任务中。我们的 fine-tuned BanglaBERT(large)模型在验证集上实现 F1 Score 为 0.79。
Mar, 2023
本文介绍了一种新的命名实体识别级联方法,它由三个步骤组成:首先在输入句子中识别候选实体,然后将每个候选实体链接到现有的知识库中,最后预测每个实体候选的细粒度类别。实验证明,外部知识库在准确分类细粒度和新兴实体方面具有重要意义,并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能,即使在使用高资源语言的知识库情况下,也能在低资源语言环境中获得良好的表现。
Apr, 2023
本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER,它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降,与在 E-NER 数据集上训练和测试相比,F1 分数下降了 29.4%至 60.4%。
Dec, 2022
本研究介绍了一项新任务:Dynamic Named Entity Recognition(DNER),提供了一个框架,以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集,DNER-RotoWire 和 DNER-IMDb,我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。
Feb, 2023
本篇论文介绍了我们参加 BioNLP Shared Tasks 2019 后在 Named Entity Recognition 和 Relation Extraction 方面的方法,我们的方法可以概括应用于不同语言的文本,包括英语和西班牙语,其中我们使用了语言特征,混合损失,多任务目标和令牌级合成策略以提高 Named Entity Recognition 的性能,使用基于字典的模糊和语义搜索来执行实体标准化, 最后,我们的 Relation Extraction 系统使用带语言特征的 Support Vector Machine,并在相关任务上表现出色。
Oct, 2019
本研究使用基于深度神经网络的查询生成方法和基于 BERTScore 的提及感知的重新排序体系结构,以进一步提高命名实体识别的性能。最后,在 WNUT17 数据集上实现了 61.56 的微 F1 得分。
Mar, 2023
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020