针对奇幻领域的命名实体提取模型微调
在特定领域(如奇幻文学)中,许多自然语言处理任务面临挑战,如命名实体识别(NER)。本研究在 7 本龙与地下城(Dungeons and Dragons)冒险书籍上分析了 10 个 NER 模型的领域特定性能,并发现 Flair、Trankit 和 Spacy 在 D&D 语境下识别命名实体方面表现优异。
Sep, 2023
本研究介绍了一项新任务:Dynamic Named Entity Recognition(DNER),提供了一个框架,以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集,DNER-RotoWire 和 DNER-IMDb,我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。
Feb, 2023
对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时,提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库,并在该数据集上对多语言模型进行了微调,平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能,证实了我们模型的实用性。
May, 2024
自然语言处理(NLP)领域中,命名实体识别(NER)作为从非结构化文本中提取结构化洞见的关键机制,在本文中得到全面探索,融合了基础原理和当代人工智能的进展。该研究从 NER 的基本概念开始,涵盖了从传统的基于规则的策略到当代的转换器架构的一系列技术,特别是突出了 BERT 与 LSTM 和 CNN 等集成算法。该论文强调了针对金融、法律和医疗等复杂领域定制的领域特定 NER 模型,并强调了它们的专业适应性。此外,研究还涉及强化学习、创新构建(如 E-NER)以及光学字符识别(OCR)在增强 NER 能力方面的相互作用。论文以实际领域为基础,阐明了 NER 在金融和生物医学等领域中不可或缺的作用,并解决了它们所面临的独特挑战。结论部分概述了开放性挑战和路径,将这项工作标记为进入 NER 研究和应用的全面指南。
Sep, 2023
本文提出了使用分布式词表示有效地将一个领域中学习的模型适应到其他领域的方法,并分析了不同领域之间的语言变异以识别可以提高性能的语言见解,提出了捕捉词汇用法的领域特定语义的方法,并演示了如何有效地使用此类领域特定知识来学习在领域适应设置中优于以前基准的 NER 模型。
Dec, 2016
本篇研究提出了一种基于预训练模型且更贴近预训练目标的新型 few-shot fine-tuning 框架 FFF-NER,应用于命名实体识别任务上,经过一系列实验及消融研究,确认其比现有序列标记、原型元学习和提示式方法等现有方法能够更有效改善 NER 性能。
May, 2022
本文介绍了在电子商务领域中运用 TripleLearn 模型训练框架,通过三个数据集迭代学习的方法解决了领域知识、训练数据和模型生产等方面的挑战,将识别品牌和产品类型等关键实体的 F1 得分从 69.5 提高到 93.3,并在 A/B 测试中显著提高了用户参与度和收入转化率,TripleLearn 框架可推广至更多工业应用领域,特别是类似数据基础和问题的电子商务行业。
Dec, 2020
本文通过对多种文本来源进行广泛评估以及通过构建新的对抗性测试集合,试图评估目前三种最先进的命名实体识别模型。在评估中,我们呈现了一些有用的报告实践方法,以便于提高当前模型性能的理解和提高未来研究的效率。
Apr, 2022