利用命名实体和词性增强金融关系抽取的语言模型
本文提出了一种基于神经元的端到端模型来联合提取实体和它们的关系,该模型不依赖于外部自然语言处理工具,而是集成了大量的预训练语言模型, 在三个领域的五个数据集上,我们的模型可以与最先进的性能相提并论,有时甚至具有更高的性能。
Dec, 2019
该文介绍了一种文本挖掘框架,利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理,取得优异的实验结果,并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。
Dec, 2021
在 ACM KDF-SIGIR 2023 竞赛中,我们对名为 REFind 的金融实体关系数据集进行了实体关系任务。我们采用了一个多步骤的方法,首先将提供的实体插入到相应的文本位置,然后利用带标签的训练集对基于 transformer 的语言模型 roberta-large 进行微调,以预测实体关系。最后,我们实施了后处理阶段,来识别和处理模型生成的不太可能的预测。由于我们的方法,我们在竞赛的公共排行榜上获得了第一名的排名。
Aug, 2023
本篇论文介绍了我们参加 BioNLP Shared Tasks 2019 后在 Named Entity Recognition 和 Relation Extraction 方面的方法,我们的方法可以概括应用于不同语言的文本,包括英语和西班牙语,其中我们使用了语言特征,混合损失,多任务目标和令牌级合成策略以提高 Named Entity Recognition 的性能,使用基于字典的模糊和语义搜索来执行实体标准化, 最后,我们的 Relation Extraction 系统使用带语言特征的 Support Vector Machine,并在相关任务上表现出色。
Oct, 2019
本文使用了 ICL 框架下的 OpenAI 模型,采用两种检索策略在 REFinD 数据集中取得了较好的结果,获得了第 4 名的成绩,最佳 F1 分数为 0.718。
Jun, 2023
本文提出 REFinD 数据集,该数据集为金融文档中的大规模关系注释数据集,可用于信息检索、语义搜索、问题回答和文本蕴含等任务,同时对各种最先进的深度学习模型进行实证评估并强调数据集带来的挑战。
May, 2023
本文主要研究了最新的自然语言处理技术中,神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现,预训练的语言模型对发现未曾见过的命名实体表现良好,但对于未曾见过的关系则有待加强,因此模型的理解能力仍存在提升空间。
Jun, 2022
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时,我们还使用 SpaCy 进行序列处理,包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系,最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。
Mar, 2024
该研究提出了一种基于神经网络的联合模型,能够同时执行实体识别和关系抽取任务,而无需人工提取特征或使用任何外部工具,并在包括新闻、生物医学和房地产等不同语境下进行了实验,而且表现优异。
Apr, 2018
金融数据集预训练转换编码器与关系抽取相结合,通过预训练金融数据集来适应金融领域任务,其独特的结构和输入模式可以提高两个实体之间关系的准确性,在大规模金融关系抽取数据集 REFinD 上表现出色。
Jul, 2023