基于文本的 NP 富集
本文主要研究了最新的自然语言处理技术中,神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现,预训练的语言模型对发现未曾见过的命名实体表现良好,但对于未曾见过的关系则有待加强,因此模型的理解能力仍存在提升空间。
Jun, 2022
本研究提出了一种知识增强的生成模型,能够前所未有地利用知识图谱来解决关系抽取问题中的歧义,显著提高了在多个基准测试和设置下的性能表现。
Jun, 2022
本文提出了一种基于神经元的端到端模型来联合提取实体和它们的关系,该模型不依赖于外部自然语言处理工具,而是集成了大量的预训练语言模型, 在三个领域的五个数据集上,我们的模型可以与最先进的性能相提并论,有时甚至具有更高的性能。
Dec, 2019
本研究提出了一种简单而有效的策略,通过结合命名实体识别和词性标注,以及不同的信息组合方法,改进了预训练语言模型的性能,用于解决金融关系提取任务。对金融关系数据集的实验证明了其有希望的结果,并突出了结合命名实体识别和词性标注在现有模型中的优势。
May, 2024
该文介绍了一种文本挖掘框架,利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理,取得优异的实验结果,并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。
Dec, 2021
本研究综述了关系抽取领域深度学习技术的现状,涵盖资源、分类、挑战和未来方向等方面,有望促进研究者共同探索真实生活中关系抽取系统的挑战。
Jun, 2023
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44% 的准确率、68.25% 的精确度和 54.20% 的召回率。同时,我们还使用 SpaCy 进行序列处理,包括预训练和微调模型的命名实体识别以及使用 SpaCy 的依赖解析器输出和一些启发式方法来确定实体关系,最终实现了 84.72% 的准确率、6.06% 的精确度和 5.57% 的召回率。
Mar, 2024
本文提出一种新方法用于从自由文本中提取关系,该方法通过从知识库中学习单词和实体关系的低维嵌入来联合使用文本和现有知识信息,实验证明该方法能够有效地利用大量 Freebase 数据 (4M 实体、23k 关系) 提供的额外信息来改善仅依赖于文本特征的现有方法。
Jul, 2013
在 ACM KDF-SIGIR 2023 竞赛中,我们对名为 REFind 的金融实体关系数据集进行了实体关系任务。我们采用了一个多步骤的方法,首先将提供的实体插入到相应的文本位置,然后利用带标签的训练集对基于 transformer 的语言模型 roberta-large 进行微调,以预测实体关系。最后,我们实施了后处理阶段,来识别和处理模型生成的不太可能的预测。由于我们的方法,我们在竞赛的公共排行榜上获得了第一名的排名。
Aug, 2023