科学致谢中有监督自动提取和分类命名实体的嵌入模型
本论文旨在评估不同嵌入模型在科学论文中对已确认的实体进行自动提取和分类的性能,并提供了一种基于 Flair NLP 框架的命名实体识别(NER)任务的解决方案,以了解科学社区的奖励体系、合作模式和隐藏研究趋势。
Jun, 2022
命名实体识别(NER)模型在各种自然语言处理(NLP)任务中起着关键作用,包括信息抽取(IE)和文本理解。在学术写作中,对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分,并需要准确的模型识别。尽管 NER 取得了进展,但现有的真实数据集未将细粒度类型(如 ML 模型和模型架构)视为单独的实体类型,因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库,并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解,我们的数据集还包含了与非正式提及相关的注释,例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。
Nov, 2023
该论文提出了应用 BiLSTM-CRF 进行命名实体识别 (NER) 和多种机器学习算法进行文本分类的研究。 基于我们的方法在英语和西班牙语中的有效性,我们的工作可以推广到不同的语言。 在 SMM4H 共享任务中,作为 MIC-NLP 团队,我们的文本分类提交在 ADE 分类 (任务 1a) 和职业分类 (任务 7a) 方面取得了 0.46 和 0.90 的 F1 分数,命名实体识别的提交在 ADE Span Detection (任务 1b) 和职业 Span detection (任务 7b) 方面取得了 0.50 和 0.82 的 F1 分数。
Jun, 2021
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
NanoNER 是基于本体知识和远程监督学习的专业领域命名实体识别模型,在 Nano 生物学领域检测先前已知实体的识别准确性为 0.98,并展示了发现新实体的能力(精确度为 0.77 至 0.81),该方法对外部资源的依赖性和 30% 的识别减弱引发的重新发现能力得到了验证。该研究为未来专业领域命名实体识别研究提供了有价值的方法和重要发现,并能推广到其他专业领域,并减少人力资源占用。
Jan, 2024
本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构,其中嵌入向量(Glove,BERT)的融合输入被用来增强模型的泛化能力,还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明,该方法显著提高了弱类的表现结果,并且只使用了非常少量的数据集。
Mar, 2020
本文主要研究了最新的自然语言处理技术中,神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现,预训练的语言模型对发现未曾见过的命名实体表现良好,但对于未曾见过的关系则有待加强,因此模型的理解能力仍存在提升空间。
Jun, 2022
本文提出了一种基于预训练词嵌入的全无监督命名实体识别模型,使用高斯隐马尔可夫模型和深度自编码高斯混合模型进行实体跨度检测和类型预测,并基于强化学习设计实例选择器,通过神经网络消除杂乱注释,实现了无需使用任何标注词典或语料库,表现出色。
Aug, 2019