科学文档中被承认实体的自动提取和分类的嵌入模型评估

Jun, 2022

科学文档中被承认实体的自动提取和分类的嵌入模型评估

Evaluation of Embedding Models for Automatic Extraction and Classification of Acknowledged Entities in Scientific Documents

PDF

Nina Smirnova, Philipp Mayr

TL;DR本论文旨在评估不同嵌入模型在科学论文中对已确认的实体进行自动提取和分类的性能，并提供了一种基于 Flair NLP 框架的命名实体识别（NER）任务的解决方案，以了解科学社区的奖励体系、合作模式和隐藏研究趋势。

Abstract

Acknowledgments in scientific papers may give an insight into aspects of the scientific community, such as reward systems, collaboration patterns, and hidden research trends. The aim of the paper is to evaluate the performance of different →

scientific community embedding models named entity recognition acknowledged entities acknowledgement analysis

发现论文，激发创造

科学致谢中有监督自动提取和分类命名实体的嵌入模型

该研究评估使用不同嵌入模型自动提取和分类科学论文中致谢文本中的承认实体的性能，并通过 Flair NLP 框架进行命名实体识别任务。最佳准确率为 0.79，实体类型包括资助机构、授予号、个人、大学、公司和其他。此模型可用于对致谢文本进行综合分析，对自动化致谢分析领域可能具有重大贡献。

Jul, 2023

Web of Science 中致谢文本的综合分析：以四个科学领域为例的案例研究

通过 WoS 数据集中的科学文献，在四个不同的学科领域（社会科学、经济学、海洋学和计算机科学）上进行了大量的致谢文本分析，在 NER 的帮助下提取了来自不同类型机构的被致谢实体，发现各个实体的分布模式存在着巨大的差异，并与不同的科学领域相关。

Oct, 2022

探索上下文和嵌入在神经命名实体识别模型中在任务定向对话系统中的重要性

本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能，研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式，并探讨了前一个话语作为附加特征的不同组合，以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。

Dec, 2018

大规模生物医学命名实体识别

通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构，我们提出了一个单可训练的命名实体识别（NER）模型，该模型在七个公共生物医学基准测试中获得了新的最优结果，而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供，并且可以扩展以支持其他人类语言，而不需要更改代码。

Nov, 2020

NanoNER：利用专家知识和远程监督进行纳米生物学的命名实体识别

NanoNER 是基于本体知识和远程监督学习的专业领域命名实体识别模型，在 Nano 生物学领域检测先前已知实体的识别准确性为 0.98，并展示了发现新实体的能力（精确度为 0.77 至 0.81），该方法对外部资源的依赖性和 30% 的识别减弱引发的重新发现能力得到了验证。该研究为未来专业领域命名实体识别研究提供了有价值的方法和重要发现，并能推广到其他专业领域，并减少人力资源占用。

Jan, 2024

FlairNLP 在 SemEval-2023 任务 6b 中的应用：利用上下文字符串嵌入从法律文本中提取法律命名实体

本文介绍了利用命名实体提取技术和双向 LSTM 模型结合 Flair 嵌入对印度法院文本进行标注的实验，并公开了 BIO 格式的数据集。

Jun, 2023

通过多粒度嵌入和增强标注进行多级生物医学命名实体识别

本文提出了一种集成多种模型的混合方法，以解决生物医学实体识别中的局限性，并在 i2b2/2010 数据集上评估，得到了 90.11 的 F1 分数。

Dec, 2023

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

科学命名实体识别的分层 Transformer 模型

使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术，无需外部资源或特定数据增强。

Mar, 2022

高度不平衡数据下适应性命名实体识别

本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构，其中嵌入向量（Glove，BERT）的融合输入被用来增强模型的泛化能力，还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明，该方法显著提高了弱类的表现结果，并且只使用了非常少量的数据集。

Mar, 2020