在信息丰富的文档中以依赖解析的方式提取实体关系

EMNLPOct, 2021

在信息丰富的文档中以依赖解析的方式提取实体关系

Entity Relation Extraction as Dependency Parsing in Visually Rich Documents

Yue Zhang, Bo Zhang, Rui Wang, Junjie Cao, Chen Li...

TL;DR本文使用 biaffine 解析模型，通过布局信息提取视觉信息中的实体关系，成功运用于生产环境。

Abstract

Previous works on key information extraction from visually rich documents (VRDs) mainly focus on labeling the text within each bounding box (i.e., semantic entity), while the relations in-between are largely unexplored. In this paper, we adapt the popular dependency parsing model, the biaffin

visual information extraction entity relation extraction biaffine parser layout information production setting

发现论文，激发创造

基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用

通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化，我们提出了一个模型，用于在视觉丰富的文档中进行关系抽取，其结果超过了当前行业的最佳效果，且没有特定的预训练任务和较少的参数。

Apr, 2024

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

基于语义分割的文档级关系抽取

本研究提出基于 Entity-level Relation Matrix 与 U-shaped Network 的 Document-level Relation Extraction 模型，通过结合上下文信息以及全局关系，实现了在 DocRED，CDR 和 GDA 三个基准数据集上的最优性能。

Jun, 2021

迈向类人机理解：在视觉丰富文档中的少样关系学习

通过引入两个新的少样本基准数据集，本研究针对可视化丰富的文档（VRD）中的键 - 值关系三元组的提取，提出了一种变分方法，其中包含关系 2D 空间先验知识和原型化校正技术，实验结果表明该方法的有效性，并为实际应用开辟了新的可能性。

Mar, 2024

RE$^2$: 基於視覺豐富文件的區域感知關係抽取

本文提出了一种基于区域感知的关系抽取方法 (RE$^2$)，它利用边缘感知的图注意力网络学习实体之间的交互，并考虑实体之间由其区域级表示定义的空间关系，同时引入约束目标以使模型符合关系抽取任务的内在约束。实验结果表明，我们的方法在各种数据集、语言和领域中具有优越性。

May, 2023

基于细粒度语义信息的远程监督关系抽取方法

本文聚焦于关系抽取，提出假设：句子中关键语义信息对实体关系抽取起着关键作用，通过内部注意机制提取句子内细粒度的语义特征，证明该关系抽取模型比已有方法具有更优的准确率和召回率。

Feb, 2023

SEE: 基于语法感知的实体嵌入用于神经关系抽取

本文提出了一种基于语法树和句子嵌入的远程监督关系抽取方法，使用句子和实体的嵌入对关系进行分类，实验结果表明这种方法在真实数据集上取得了最佳的性能。

Jan, 2018

远程监督的词形句法模型用于关系抽取

信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法，它基于远程监督方法获取的形态 - 句法抽取模式，并创建句法和语义索引来提取和分类候选图。我们在构建在 Wikidata 和 Wikipedia 上的六个数据集上评估了我们的方法。评估结果显示，我们的方法可以实现高达 0.85 的精确度得分，但召回率和 F1 得分较低。我们的方法可以快速构建基于规则的信息抽取系统，并构建注释数据集以训练基于机器学习和深度学习的分类器。

Jan, 2024

从视觉丰富文档中提取多模态信息的图卷积

本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法，并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。

Mar, 2019

联合实体和关系抽取的有效级联双解码器模型

本文提出了一种有效的两级解码器方法来从文本中提取重叠的关系三元组，该方法通过具有可训练嵌入的关系相关实体解码器和特定于文本语义的关系解码器来解决重叠三元组问题，并在两个公共数据集上取得了优异的性能。

Jun, 2021