PARAGRAPH2GRAPH: 基于 GNN 的布局段落分析框架

Apr, 2023

PARAGRAPH2GRAPH: 基于 GNN 的布局段落分析框架

PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis

Shu Wei, Nuo Xu

TL;DR本文提出了一种名为 Paragraph2Graph 的基于图神经网络（GNN）的模型，它能够处理多种语言，并表现出了在处理文档布局方面的出色能力，同时可以适应需要进行严格分离的业务场景。

Abstract

document layout analysis has a wide range of requirements across various domains, languages, and business scenarios. However, most current state-of-the-art algorithms are language-dependent, with architectures that rely on →

document layout analysis transformer encoders language-specific text encoders graph neural network multi-language scenarios

发现论文，激发创造

语言和图神经网络模型的高效有效训练

本文提出了一种有效的框架，称为语言模型图神经网络 (LM-GNN)，通过分阶段的 BERT 模型微调来结合异构图结构与文本，以便在多项监督学习任务中实现节点和边分类以及链接预测，并在不同的数据集上评估了这个框架且在一个亚马逊搜索 - 购买 - 产品的应用中提供了有竞争力的结果。

Jun, 2022

利用图变换网络对复杂文档布局中的文本语义进行建模

本文提出了一种基于图形表示的模型，并演示了我们不仅可以跨文档检索语义相似的信息，而且我们生成的嵌入空间也捕获了有用的语义信息，类似于仅适用于文本序列的语言模型。

Feb, 2022

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023

基于文本级图神经网络的文本分类

提出了一种新的基于图神经网络的模型，通过全局参数共享建立每个输入文本的图形而不是整个语料库的单个图形，这种方法支持在线测试，同时提取更多的本地特征和显著降低边缘数量以及内存消耗，在多个文本分类数据集上性能优于现有模型。

Oct, 2019

Doc2Graph: 一种基于图神经网络的任务无关文档理解框架

这篇研究文章介绍了一种基于 GNN 模型的文档理解框架 ——Doc2Graph，可用于处理不同类型文档的不同任务，如发票布局分析及表格识别等，旨在提高信息提取的效率。

Aug, 2022

Doc-GCN: 面向文档布局分析的异构图卷积网络

我们提出了一种新的文档布局分析方法，即 Doc-GCN ，该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明，我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。

Aug, 2022

一个语义分层图神经网络用于文本分类

本文研究了基于图神经网络的文本分类任务，提出了一种新的分层图神经网络模型（HieGNN），其在词级别、句子级别和文档级别分别提取相应的信息。实验结果表明与几个基准方法相比，我们的模型能够从样本中获得更多有用的分类信息。

Sep, 2022

应用图卷积网络进行 OCR 后段识别

本文提出了一种新的方法，使用空间图卷积网络（GCN）应用于 OCR 文本框，在文档图像中识别段落。通过线路分割和线路聚类两个步骤，从 OCR 结果的行中提取段落。每个步骤使用从边界框建立的贝塔骨架图，其中图边提供了有利于图卷积操作的高效支持。仅使用纯布局输入特征，GCN 模型大小比基于 R-CNN 的模型小 3~4 个数量级，同时在 PubLayNet 和其他数据集上实现可比较或更好的准确性。此外，GCN 模型在从合成训练数据到真实世界图像的转换，以及针对可变文档样式的适应性方面表现良好。

Jan, 2021

通过相对位置对知识图谱进行文本生成的图结构建模

本文介绍了 Graformer，一种新颖的基于 Transformer 的编码器 - 解码器体系结构，用于图形到文本的生成。使用我们新颖的图形自我关注，节点的编码依赖于输入图中的所有节点，促进了全局模式的检测。通过学习不同关注头的节点之间的权重，Graformer 实现了不同的连接视图，从而在 AGENDA 和 WebNLG 这两个流行的图形到文本生成基准测试中实现强大的性能。

Jun, 2020

GraphFormers: 融合 GNN 和 Transformer 的文本图卷积神经网络表示学习

本文提出了一种基于文本图的表示学习方法 GraphFormers，该方法将语言模型的 Transformer 块与图神经网络嵌套在一起，将文本编码和图聚合融合到迭代的工作流程中，从全局视角准确地理解每个节点的语义。通过在三个大规模基准数据集上的广泛评估，GraphFormers 比 SOTA 基准模型具有相当的运行效率。

May, 2021