EMNLPNov, 2023

GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线

TL;DR命名实体识别(NER)模型在各种自然语言处理(NLP)任务中起着关键作用,包括信息抽取(IE)和文本理解。在学术写作中,对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分,并需要准确的模型识别。尽管 NER 取得了进展,但现有的真实数据集未将细粒度类型(如 ML 模型和模型架构)视为单独的实体类型,因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库,并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解,我们的数据集还包含了与非正式提及相关的注释,例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。