NERetrieve: 下一代命名实体识别与检索数据集
命名实体识别(NER)旨在从文本中提取命名真实世界对象并确定它们的类型,本文首先概述了最近流行的方法,然后探讨了其他调查中较少涉及的基于图和变换器的方法,包括大型语言模型(LLMs)。其次,重点介绍了适用于稀缺注释数据集的方法。第三,我们评估了主要 NER 实现在不同类型的数据集上的性能,并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。
Jan, 2024
本研究介绍了一项新任务:Dynamic Named Entity Recognition(DNER),提供了一个框架,以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集,DNER-RotoWire 和 DNER-IMDb,我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。
Feb, 2023
本文综述了深度神经网络在命名实体识别方面的应用,相对于传统的基于特征工程和监督或半监督学习算法的实体识别方法,神经网络在该领域中取得了更好的效果,并表明吸收过去的基于特征的 NER 系统的一些经验教训可以进一步提高性能。
Oct, 2019
命名实体识别(NER)模型在各种自然语言处理(NLP)任务中起着关键作用,包括信息抽取(IE)和文本理解。在学术写作中,对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分,并需要准确的模型识别。尽管 NER 取得了进展,但现有的真实数据集未将细粒度类型(如 ML 模型和模型架构)视为单独的实体类型,因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库,并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解,我们的数据集还包含了与非正式提及相关的注释,例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。
Nov, 2023
自然语言处理(NLP)领域中,命名实体识别(NER)作为从非结构化文本中提取结构化洞见的关键机制,在本文中得到全面探索,融合了基础原理和当代人工智能的进展。该研究从 NER 的基本概念开始,涵盖了从传统的基于规则的策略到当代的转换器架构的一系列技术,特别是突出了 BERT 与 LSTM 和 CNN 等集成算法。该论文强调了针对金融、法律和医疗等复杂领域定制的领域特定 NER 模型,并强调了它们的专业适应性。此外,研究还涉及强化学习、创新构建(如 E-NER)以及光学字符识别(OCR)在增强 NER 能力方面的相互作用。论文以实际领域为基础,阐明了 NER 在金融和生物医学等领域中不可或缺的作用,并解决了它们所面临的独特挑战。结论部分概述了开放性挑战和路径,将这项工作标记为进入 NER 研究和应用的全面指南。
Sep, 2023
llmNER 是一个用于实现 LLMs 的零射击和少射击 NER 的 Python 库,通过提供易于使用的接口,llmNER 可以组合提示、查询模型,并解析 LLM 返回的完成结果。该库还通过提供简单的接口来测试多个变量,让用户可以高效地执行提示工程。我们在两个 NER 任务上验证了我们的软件,以展示该库的灵活性。llmNER 旨在推动上下文学习研究的界限,消除提示和解析步骤的障碍。
Jun, 2024
本文介绍了一种基于 GPT 模型的 NER 算法 ——GPT-NER,它通过将序列标注任务转化为生成任务来弥补 LLMs 在 NER 任务上的缺陷,并提出自我验证策略以解决 LLMs 易出现的幻觉问题。实验结果表明,该算法表现与有监督算法相当,在低资源学习中表现显着优于有监督模型,具有实现限制样本 NER 应用的能力。
Apr, 2023
本文提出了一种多任务学习框架,将标签依赖关系融入基于机器阅读理解的命名实体识别,通过使用自注意力模块来捕捉标签之间的依赖关系,实现更好的性能。
Sep, 2023