针对奇幻领域的命名实体提取模型微调

Feb, 2024

针对奇幻领域的命名实体提取模型微调

Fine Tuning Named Entity Extraction Models for the Fantasy Domain

Aravinth Sivaganeshan, Nisansa de Silva

TL;DR该研究通过使用 D&D 领域的可用怪物相关知识对 Trankit 进行微调，训练系统在新的 NER 标签下从相关领域文档中提取怪物名称，并将其与零样本 Trankit 模型和两个 FLAIR 模型进行了准确性比较，结果显示经过微调的 Trankit 模型获得了 87.86% 的 F1 分数，超过其他考虑的模型。

Abstract

named entity recognition (NER) is a sequence classification Natural Language Processing task where entities are identified in the text and classified into predefined categories. It acts as a foundation for most information extraction systems. →

named entity recognition dungeons and dragons fine-tuned trankit model domain-specific entities ner systems

发现论文，激发创造

龙与地下城领域中命名实体识别的比较分析

在特定领域（如奇幻文学）中，许多自然语言处理任务面临挑战，如命名实体识别（NER）。本研究在 7 本龙与地下城（Dungeons and Dragons）冒险书籍上分析了 10 个 NER 模型的领域特定性能，并发现 Flair、Trankit 和 Spacy 在 D&D 语境下识别命名实体方面表现优异。

Sep, 2023

动态命名实体识别

本研究介绍了一项新任务：Dynamic Named Entity Recognition（DNER），提供了一个框架，以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集，DNER-RotoWire 和 DNER-IMDb，我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。

Feb, 2023

为印度语言优化预训练的命名实体识别模型

对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时，提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库，并在该数据集上对多语言模型进行了微调，平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能，证实了我们模型的实用性。

May, 2024

命名实体识别的综合概述：模型、特定领域应用和挑战

自然语言处理（NLP）领域中，命名实体识别（NER）作为从非结构化文本中提取结构化洞见的关键机制，在本文中得到全面探索，融合了基础原理和当代人工智能的进展。该研究从 NER 的基本概念开始，涵盖了从传统的基于规则的策略到当代的转换器架构的一系列技术，特别是突出了 BERT 与 LSTM 和 CNN 等集成算法。该论文强调了针对金融、法律和医疗等复杂领域定制的领域特定 NER 模型，并强调了它们的专业适应性。此外，研究还涉及强化学习、创新构建（如 E-NER）以及光学字符识别（OCR）在增强 NER 能力方面的相互作用。论文以实际领域为基础，阐明了 NER 在金融和生物医学等领域中不可或缺的作用，并解决了它们所面临的独特挑战。结论部分概述了开放性挑战和路径，将这项工作标记为进入 NER 研究和应用的全面指南。

Sep, 2023

基于词嵌入的在线媒体命名实体识别领域自适应

本文提出了使用分布式词表示有效地将一个领域中学习的模型适应到其他领域的方法，并分析了不同领域之间的语言变异以识别可以提高性能的语言见解，提出了捕捉词汇用法的领域特定语义的方法，并演示了如何有效地使用此类领域特定知识来学习在领域适应设置中优于以前基准的 NER 模型。

Dec, 2016

Few-shot Fine-tuning 的构建：以命名实体识别为例进行语言模型预训练的试验研究

本篇研究提出了一种基于预训练模型且更贴近预训练目标的新型 few-shot fine-tuning 框架 FFF-NER，应用于命名实体识别任务上，经过一系列实验及消融研究，确认其比现有序列标记、原型元学习和提示式方法等现有方法能够更有效改善 NER 性能。

May, 2022

奇幻小说中鲁棒字符检测的数据增强

本文讨论利用数据增强技术来提高命名实体识别的召回率，同时介绍了如何通过提供更多的局部上下文来解决某些歧义问题。

Feb, 2023

命名实体识别的深度学习调查

本文基于三个维度的分类法，系统地回顾了深度学习在命名实体识别上的应用技术，并介绍了面临的挑战和未来的研究方向。

Dec, 2018

电子商务搜索中命名实体识别的端到端解决方案

本文介绍了在电子商务领域中运用 TripleLearn 模型训练框架，通过三个数据集迭代学习的方法解决了领域知识、训练数据和模型生产等方面的挑战，将识别品牌和产品类型等关键实体的 F1 得分从 69.5 提高到 93.3，并在 A/B 测试中显著提高了用户参与度和收入转化率，TripleLearn 框架可推广至更多工业应用领域，特别是类似数据基础和问题的电子商务行业。

Dec, 2020

关于现有顶尖 NER 技术状态我们真正了解了什么？

本文通过对多种文本来源进行广泛评估以及通过构建新的对抗性测试集合，试图评估目前三种最先进的命名实体识别模型。在评估中，我们呈现了一些有用的报告实践方法，以便于提高当前模型性能的理解和提高未来研究的效率。

Apr, 2022