信息提取：在发展中国家超本地金融数据领域的应用

Mar, 2024

信息提取：在发展中国家超本地金融数据领域的应用

Information Extraction: An application to the domain of hyper-local financial data on developing countries

Abuzar Royesh, Olamide Oladeji

TL;DR本研究使用自然语言处理技术，旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集，我们采用基于 Transformer 的 T5 模型进行文本到文本的处理，同时进行命名实体识别和关系提取，达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时，我们还使用 SpaCy 进行序列处理，包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系，最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。

Abstract

Despite the need for financial data on company activities in developing countries for development research and economic analysis, such data does not exist. In this project, we develop and evaluate two natural language p

financial data developing countries natural language processing information extraction relation extraction

发现论文，激发创造

使用预训练语言模型的端到端命名实体识别和关系抽取

本文提出了一种基于神经元的端到端模型来联合提取实体和它们的关系，该模型不依赖于外部自然语言处理工具，而是集成了大量的预训练语言模型，在三个领域的五个数据集上，我们的模型可以与最先进的性能相提并论，有时甚至具有更高的性能。

Dec, 2019

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

针对网络安全概念的关系抽取框架

本论文介绍了一种利用半监督自然语言处理和引导式算法从文本中提取安全实体与其关系的方法，并在小型语料库上进行测试，结果表明可以较高准确地实现此目的。

Apr, 2015

有限数据下的信息提取迁移学习

本文提出了一种通过使用转移学习的方法，并结合深度神经网络和统计分类器的结合来进行信息提取，将该方法应用于日本政府工程竞标实际案例的文档处理中，证明了该模型能够提取具有详细信息精度的细粒度命名实体。

Mar, 2020

关系抽取中充分利用领域专家的时间

文章介绍了一种使用远程监督与主动学习相结合的方法进行关系提取，实现在减少专家标注数据的人力成本的同时，使神经网络在复杂数据集上得到更好的表现。

Jul, 2018

关系抽取在临床文档理解中的应用

该文介绍了一种文本挖掘框架，利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理，取得优异的实验结果，并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。

Dec, 2021

大语言模型推进意大利生物医学信息提取：方法论洞见与多中心实际应用

该研究创建了第一个意大利神经心理学命名实体识别数据集，PsyNIT，并使用它开发了用于此任务的大型语言模型。通过多中心模型实验，建立了方法论指导，未来还可为意大利医院提供重要的研究机会。

Jun, 2023

面向中文临床文本的医疗信息标注和提取统一框架

该研究提供了一个医学信息提取的工程框架，其中包括医疗实体识别、关系提取和属性提取。通过深度学习技术和注释语料库，该系统可以高准确率地提取医学实体、关系和属性。

Mar, 2022

基于数据效率的形式文档信息提取

本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Jan, 2022

能源语料库中的知识发现和信息抽取的自然语言处理

应用自然语言处理方法，利用三种无监督模型 (Latent Dirichlet Allocation、Word2Vec 和 Transformer) 分析大规模特定主题科学文章的能源相关内容并实现文本的信息提取和知识发现，同时展示了能源材料研究中潜在的主题和概念，并开发了文档分类方法以加速能源研究和材料开发工作。

Feb, 2024