科学致谢中有监督自动提取和分类命名实体的嵌入模型

Jul, 2023

科学致谢中有监督自动提取和分类命名实体的嵌入模型

Embedding Models for Supervised Automatic Extraction and Classification of Named Entities in Scientific Acknowledgements

PDF

Nina Smirnova, Philipp Mayr

TL;DR该研究评估使用不同嵌入模型自动提取和分类科学论文中致谢文本中的承认实体的性能，并通过 Flair NLP 框架进行命名实体识别任务。最佳准确率为 0.79，实体类型包括资助机构、授予号、个人、大学、公司和其他。此模型可用于对致谢文本进行综合分析，对自动化致谢分析领域可能具有重大贡献。

Abstract

acknowledgments in scientific papers may give an insight into aspects of the scientific community, such as reward systems, collaboration patterns, and hidden research trends. The aim of the paper is to evaluate the performance of different →

acknowledgments embedding models named entity recognition acknowledged entities automated acknowledgment analysis

发现论文，激发创造

科学文档中被承认实体的自动提取和分类的嵌入模型评估

本论文旨在评估不同嵌入模型在科学论文中对已确认的实体进行自动提取和分类的性能，并提供了一种基于 Flair NLP 框架的命名实体识别（NER）任务的解决方案，以了解科学社区的奖励体系、合作模式和隐藏研究趋势。

Jun, 2022

GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线

命名实体识别（NER）模型在各种自然语言处理（NLP）任务中起着关键作用，包括信息抽取（IE）和文本理解。在学术写作中，对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分，并需要准确的模型识别。尽管 NER 取得了进展，但现有的真实数据集未将细粒度类型（如 ML 模型和模型架构）视为单独的实体类型，因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库，并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解，我们的数据集还包含了与非正式提及相关的注释，例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。

Nov, 2023

SMM4H 2021 中命名实体识别的神经文本分类和堆叠异质嵌入

该论文提出了应用 BiLSTM-CRF 进行命名实体识别 (NER) 和多种机器学习算法进行文本分类的研究。基于我们的方法在英语和西班牙语中的有效性，我们的工作可以推广到不同的语言。在 SMM4H 共享任务中，作为 MIC-NLP 团队，我们的文本分类提交在 ADE 分类 (任务 1a) 和职业分类 (任务 7a) 方面取得了 0.46 和 0.90 的 F1 分数，命名实体识别的提交在 ADE Span Detection (任务 1b) 和职业 Span detection (任务 7b) 方面取得了 0.50 和 0.82 的 F1 分数。

Jun, 2021

科学命名实体识别的分层 Transformer 模型

使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术，无需外部资源或特定数据增强。

Mar, 2022

大规模生物医学命名实体识别

通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构，我们提出了一个单可训练的命名实体识别（NER）模型，该模型在七个公共生物医学基准测试中获得了新的最优结果，而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供，并且可以扩展以支持其他人类语言，而不需要更改代码。

Nov, 2020

通过多粒度嵌入和增强标注进行多级生物医学命名实体识别

本文提出了一种集成多种模型的混合方法，以解决生物医学实体识别中的局限性，并在 i2b2/2010 数据集上评估，得到了 90.11 的 F1 分数。

Dec, 2023

NanoNER：利用专家知识和远程监督进行纳米生物学的命名实体识别

NanoNER 是基于本体知识和远程监督学习的专业领域命名实体识别模型，在 Nano 生物学领域检测先前已知实体的识别准确性为 0.98，并展示了发现新实体的能力（精确度为 0.77 至 0.81），该方法对外部资源的依赖性和 30% 的识别减弱引发的重新发现能力得到了验证。该研究为未来专业领域命名实体识别研究提供了有价值的方法和重要发现，并能推广到其他专业领域，并减少人力资源占用。

Jan, 2024

高度不平衡数据下适应性命名实体识别

本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构，其中嵌入向量（Glove，BERT）的融合输入被用来增强模型的泛化能力，还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明，该方法显著提高了弱类的表现结果，并且只使用了非常少量的数据集。

Mar, 2020

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

仅基于词嵌入的命名实体识别

本文提出了一种基于预训练词嵌入的全无监督命名实体识别模型，使用高斯隐马尔可夫模型和深度自编码高斯混合模型进行实体跨度检测和类型预测，并基于强化学习设计实例选择器，通过神经网络消除杂乱注释，实现了无需使用任何标注词典或语料库，表现出色。

Aug, 2019