FiNER: 金融命名实体识别数据集和弱监督模型
为了解决交叉域命名实体识别 (NER) 任务中样本少的问题,作者提出了一个跨领域 NER 数据集 CrossNER, 进行了一系列实验来探索利用不同级别的领域语料库和预训练策略进行域自适应预训练的有效性,研究表明利用包含领域特定实体的分数语料库并采用更具挑战性的预训练策略对于 NER 的域自适应有益,提出的方法在跨领域 NER 基线上效果更好。
Dec, 2020
通过大规模语言模型,命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标,但这些目标仍然需要进一步研究和探索。
Oct, 2023
本研究提出了一种问答式自动生成命名实体识别数据的方法,使用生成的数据进行训练的模型在多项 NER 评测中表现优异,并在少样本 NER 中取得了新的最佳表现。
Dec, 2021
本文提出了使用分布式词表示有效地将一个领域中学习的模型适应到其他领域的方法,并分析了不同领域之间的语言变异以识别可以提高性能的语言见解,提出了捕捉词汇用法的领域特定语义的方法,并演示了如何有效地使用此类领域特定知识来学习在领域适应设置中优于以前基准的 NER 模型。
Dec, 2016
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。
Apr, 2020
通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD,并使用减少冗余的数据修剪策略,在开放领域命名实体识别方面,提高了大型语言模型的泛化性能,优于 GPT-4 和以往的方法。
Jun, 2024
命名实体识别(NER)模型在各种自然语言处理(NLP)任务中起着关键作用,包括信息抽取(IE)和文本理解。在学术写作中,对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分,并需要准确的模型识别。尽管 NER 取得了进展,但现有的真实数据集未将细粒度类型(如 ML 模型和模型架构)视为单独的实体类型,因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库,并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解,我们的数据集还包含了与非正式提及相关的注释,例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。
Nov, 2023
本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER,它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降,与在 E-NER 数据集上训练和测试相比,F1 分数下降了 29.4%至 60.4%。
Dec, 2022
我们介绍了一个名为 FinEntity 的实体级情感分类数据集,用于金融领域中指向特定金融实体的情感分析。我们在论文中记录了数据集构建过程,并在几个预训练模型(BERT、FinBERT 等)和 ChatGPT 上进行了实体级情感分类的基准测试。我们通过一个案例研究展示了使用 FinEntity 在监测加密货币市场中的实际应用价值。FinEntity 的数据和代码可在 https://github.com/yixuantt/FinEntity 获取。
Oct, 2023
自然语言处理(NLP)领域中,命名实体识别(NER)作为从非结构化文本中提取结构化洞见的关键机制,在本文中得到全面探索,融合了基础原理和当代人工智能的进展。该研究从 NER 的基本概念开始,涵盖了从传统的基于规则的策略到当代的转换器架构的一系列技术,特别是突出了 BERT 与 LSTM 和 CNN 等集成算法。该论文强调了针对金融、法律和医疗等复杂领域定制的领域特定 NER 模型,并强调了它们的专业适应性。此外,研究还涉及强化学习、创新构建(如 E-NER)以及光学字符识别(OCR)在增强 NER 能力方面的相互作用。论文以实际领域为基础,阐明了 NER 在金融和生物医学等领域中不可或缺的作用,并解决了它们所面临的独特挑战。结论部分概述了开放性挑战和路径,将这项工作标记为进入 NER 研究和应用的全面指南。
Sep, 2023