GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线

EMNLPNov, 2023

GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线

GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets

PDF

Wolfgang Otto, Matthäus Zloch, Lu Gan, Saurav Karmakar, Stefan Dietze

TL;DR命名实体识别（NER）模型在各种自然语言处理（NLP）任务中起着关键作用，包括信息抽取（IE）和文本理解。在学术写作中，对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分，并需要准确的模型识别。尽管 NER 取得了进展，但现有的真实数据集未将细粒度类型（如 ML 模型和模型架构）视为单独的实体类型，因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库，并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解，我们的数据集还包含了与非正式提及相关的注释，例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。

Abstract

named entity recognition (NER) models play a crucial role in various NLP tasks, including information extraction (IE) and text understanding. In academic writing, references to machine learning models and

named entity recognition ner models machine learning models datasets baseline model

发现论文，激发创造

NERetrieve: 下一代命名实体识别与检索数据集

通过大规模语言模型，命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标，但这些目标仍然需要进一步研究和探索。

Oct, 2023

命名实体识别的综合概述：模型、特定领域应用和挑战

自然语言处理（NLP）领域中，命名实体识别（NER）作为从非结构化文本中提取结构化洞见的关键机制，在本文中得到全面探索，融合了基础原理和当代人工智能的进展。该研究从 NER 的基本概念开始，涵盖了从传统的基于规则的策略到当代的转换器架构的一系列技术，特别是突出了 BERT 与 LSTM 和 CNN 等集成算法。该论文强调了针对金融、法律和医疗等复杂领域定制的领域特定 NER 模型，并强调了它们的专业适应性。此外，研究还涉及强化学习、创新构建（如 E-NER）以及光学字符识别（OCR）在增强 NER 能力方面的相互作用。论文以实际领域为基础，阐明了 NER 在金融和生物医学等领域中不可或缺的作用，并解决了它们所面临的独特挑战。结论部分概述了开放性挑战和路径，将这项工作标记为进入 NER 研究和应用的全面指南。

Sep, 2023

WikiGoldSK：斯洛伐克命名实体识别的注释数据集、基线和少样本学习实验

本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状，并通过引入 WikiGoldSK 数据集，评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果，并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验，并显示使用一个银标准数据集进行训练可以获得更好的结果。最终，我们公开了数据集、代码和经过训练的模型，并采用可许可的许可条款。

Apr, 2023

IXA/Cogcomp 参加 SemEval-2023 第 2 项任务：基于知识库的上下文增强的多语言命名实体识别

本文介绍了一种新的命名实体识别级联方法，它由三个步骤组成：首先在输入句子中识别候选实体，然后将每个候选实体链接到现有的知识库中，最后预测每个实体候选的细粒度类别。实验证明，外部知识库在准确分类细粒度和新兴实体方面具有重要意义，并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能，即使在使用高资源语言的知识库情况下，也能在低资源语言环境中获得良好的表现。

Apr, 2023

开放研究知识图谱中的计算机科学命名实体识别

本文提出了一个标准化任务，定义了 7 个以贡献为中心的计算机科学学术实体的集合，旨在解决计算机科学领域特定实体识别这一问题。通过结合现有的计算机科学文献 NER 资源，并从文章标题和摘要中提取数千个贡献中心实体注释，该论文提供了一种方法，以训练基于神经网络的 NER 模型。通过相关实验评估，该模型表现出与其他业界领先的神经网络立场识别模型相当的准确性。

Mar, 2022

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

大规模生物医学命名实体识别

通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构，我们提出了一个单可训练的命名实体识别（NER）模型，该模型在七个公共生物医学基准测试中获得了新的最优结果，而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供，并且可以扩展以支持其他人类语言，而不需要更改代码。

Nov, 2020

近期命名实体识别研究进展综述

命名实体识别（NER）旨在从文本中提取命名真实世界对象并确定它们的类型，本文首先概述了最近流行的方法，然后探讨了其他调查中较少涉及的基于图和变换器的方法，包括大型语言模型（LLMs）。其次，重点介绍了适用于稀缺注释数据集的方法。第三，我们评估了主要 NER 实现在不同类型的数据集上的性能，并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。

Jan, 2024

神经模型泛化再思考：命名实体识别案例研究

本文在命名实体识别任务上，提出了一种新的泛化能力指标，通过在多个角度分析已有模型在泛化行为上的不同表现，历经深入实验分析，得出了现有神经网络命名实体识别模型在数据集偏差、注释错误等方面存在局限性，并提出了改进方向的训练方法。此外，作者还开源了一个涵盖最近 NER 研究论文的综述项目。

Jan, 2020

E-NER -- 一份法律文本的命名实体识别注释语料库

本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER，它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降，与在 E-NER 数据集上训练和测试相比，F1 分数下降了 29.4％至 60.4％。

Dec, 2022