Doc2Graph: 一种基于图神经网络的任务无关文档理解框架

ECCVAug, 2022

Doc2Graph: 一种基于图神经网络的任务无关文档理解框架

Doc2Graph: a Task Agnostic Document Understanding Framework based on Graph Neural Networks

Andrea Gemelli, Sanket Biswas, Enrico Civitelli, Josep Lladós, Simone Marinai

TL;DR这篇研究文章介绍了一种基于 GNN 模型的文档理解框架 ——Doc2Graph，可用于处理不同类型文档的不同任务，如发票布局分析及表格识别等，旨在提高信息提取的效率。

Abstract

geometric deep learning has recently attracted significant interest in a wide range of machine learning fields, including document analysis. The application of →

geometric deep learning graph neural networks document analysis key information extraction doc2graph

发现论文，激发创造

基于图注意力网络的多模态预训练在文档理解中的应用

本文提出了一种基于多模态图注意力机制的图文结合的自动文档分析模型 (GraphDoc)，该模型利用文本、布局和图像信息进行多模态预训练，并通过门控融合层对每个节点进行多模态特征融合，通过图注意层建模每个节点之间的上下文关系，学习了仅使用 320k 未标注文档的通用表示，在公共数据集上获得了最先进的性能。

Mar, 2022

DocGraphLM: 信息提取的文档图谱语言模型

该研究论文介绍了一种名为 DocGraphLM 的新型框架，它结合了预训练语言模型和图形语义，通过使用联合编码器架构来表示文档，并采用一种新颖的链接预测方法来重构文档图。DocGraphLM 通过采用图形特征，在信息提取和问答任务中持续改善了目标性能，并且提供了在训练过程中加速收敛的优点。

Jan, 2024

PARAGRAPH2GRAPH: 基于 GNN 的布局段落分析框架

本文提出了一种名为 Paragraph2Graph 的基于图神经网络（GNN）的模型，它能够处理多种语言，并表现出了在处理文档布局方面的出色能力，同时可以适应需要进行严格分离的业务场景。

Apr, 2023

Doc-GCN: 面向文档布局分析的异构图卷积网络

我们提出了一种新的文档布局分析方法，即 Doc-GCN ，该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明，我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。

Aug, 2022

使用图神经网络重新思考表格识别

本文提出一种基于图网络架构的表格识别方法，在视觉特征提取方面融合了卷积神经网络的优势；实验证明该方法优于基准线方法。此外，为了解决大规模数据集问题，文中提出了一种合成数据集，并开源了数据集生成及图网络训练框架，以推进研究的可复制性。

May, 2019

Docs2KG: 基于大型语言模型辅助的异构文档统一知识图谱构建

本文介绍了 Docs2KG，一种从不同和异构的非结构化文档中提取多模式信息的新框架。Docs2KG 可以动态生成表示提取的关键信息的统一知识图，从而实现对文档数据湖的高效查询和探索。该框架与现有方法不同，它提供了一种灵活可扩展的解决方案，可以适应各种文档结构和内容类型。Docs2KG 通过统一的数据处理支持多种下游任务，提高了领域解释能力。

Jun, 2024

融合文档关系图的神经主题建模

本文介绍了一种名为 Graph Topic Model (GTM) 的基于图形神经网络 (GNNs) 的神经主题模型，通过信息交互捕捉图形节点之间的关系，将文档和词汇转化成为图中的节点，并根据共现性连接，通过图卷积汇聚邻居节点信息从而通过共享单词在文档之间建立关系，扩充了文档的主题的表达方式。研究者还基于三个数据集开展了广泛的实验，其结果证明了这种方法的有效性。

Sep, 2020

图神经网络如何帮助文档检索：以 CORD19 为例，涉及概念地图生成的案例研究

在大规模跨学科数据集 CORD-19 上进行实证研究，结果表明我们提出的面向语义的图形函数可以通过 BM25 检索的候选项达到更好和更稳定的性能，这可以作为未来开发文档检索和分类等文本推理任务的有效图神经网络的指导。

Jan, 2022

GeoContrastNet：用于语言无关文档理解的对比键 - 值边缘学习

GeoContrastNet 是一个语言不可知的框架，通过将对比学习目标与图注意力网络（GATs）相结合，强调几何特征的重要作用，实现了结构化文档理解（DU）。我们提出了一种新的方法，将几何边缘特征与视觉特征结合在一个整体的基于 GAT 的框架中，在链接预测和语义实体识别性能方面展示了有希望的结果。我们的研究结果表明，将几何特征和视觉特征相结合，可以匹配那些在性能准确性和效率上严重依赖光学字符识别（OCR）特征的大型 DU 模型的能力。这种方法强调了页面的半结构化布局中命名文本实体之间的关系布局信息的重要性。具体而言，我们的结果突出了该模型在识别 FUNSD 数据集中的表单中的键 - 值关系以及在 RVLCDIP 业务发票的表格结构布局中发现空间关系的能力。我们的代码和预训练模型将在我们的官方 GitHub 上提供。

May, 2024

一个多任务半监督框架用于 Text2Graph 和 Graph2Text

该研究提出了一种基于 T5 架构的多任务半监督环境下联合学习文本图谱提取和图谱生成的解决方案，此方法在 WebNLG 数据集中表现优于无监督最新成果，且相较于有监督模型更具一致性。

Feb, 2022