GVdoc：基于图形的视觉文档分类

May, 2023

GVdoc: Graph-based Visual Document Classification

Fnu Mohbat, Mohammed J. Zaki, Catherine Finegan-Dollak, Ashish Verma

TL;DRGVdoc 是一种基于图的文件分类模型，通过生成文档图并使用图神经网络学习节点和图嵌入，在保持良好性能的同时，比同类模型更好地解决了处理识别图形文档的挑战，能够在识别数据稀疏的情况下表现出色。

Abstract

The robustness of a model for real-world deployment is decided by how well it performs on unseen data and distinguishes between in-domain and out-of-domain samples. Visual document classifiers have shown impressive performance on in-distribution test sets. However, they tend to have a hard time correctly classifying and differentiating out-of-distribution ex

document classification graph-based model out-of-distribution samples visual documents graph neural network

发现论文，激发创造

DocGraphLM: 信息提取的文档图谱语言模型

该研究论文介绍了一种名为 DocGraphLM 的新型框架，它结合了预训练语言模型和图形语义，通过使用联合编码器架构来表示文档，并采用一种新颖的链接预测方法来重构文档图。DocGraphLM 通过采用图形特征，在信息提取和问答任务中持续改善了目标性能，并且提供了在训练过程中加速收敛的优点。

Jan, 2024

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

从视觉丰富文档中提取多模态信息的图卷积

本文提出了一种基于图卷积的模型来将文本和视觉信息相结合以实现对视觉丰富的文档中实体抽取的方法，并通过实验证明了所提出的模型在两个真实数据集上的性能远优于 BiLSTM-CRF 模型。

Mar, 2019

Doc-GCN: 面向文档布局分析的异构图卷积网络

我们提出了一种新的文档布局分析方法，即 Doc-GCN ，该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明，我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。

Aug, 2022

评估文档图像分类器的越界性能

本文提出了一个新的文档分类器 “out-of-distribution” 测试基准，名为 RVL-CDIP，目的是测试分类器在不同分布的输入上的健壮部署和泛化性能。该基准包括两种类型的文档：不属于任何 16 个领域的 RVL-CDIP-O 类别的文档和来自于与原始数据集不同的分布的 16 个领域内的 RVL-CDIP-N 类别的文档。通过评估，发现模型对于新的 out-of-domain RVL-CDIP-N 测试基准的准确率下降了约 15-30％，而且还很难区分领域内 RVL-CDIP-N 和领域外 RVL-CDIP-O 输入。

Oct, 2022

基于领域内迁移学习和叠加深度卷积神经网络的文档图像分类

本文提出了一种基于深度卷积神经网络的区域框架，用于文档结构学习，并实现了高效的分类器和有效的串联分类方法，同时提出了外部和内部领域迁移学习技术和基于交叉验证方法的分类器融合思想，实现对 RVL-CDIP 文档图像数据集中文档分类的最新记录 92.2％准确率。

Jan, 2018

基于图注意力网络的多模态预训练在文档理解中的应用

本文提出了一种基于多模态图注意力机制的图文结合的自动文档分析模型 (GraphDoc)，该模型利用文本、布局和图像信息进行多模态预训练，并通过门控融合层对每个节点进行多模态特征融合，通过图注意层建模每个节点之间的上下文关系，学习了仅使用 320k 未标注文档的通用表示，在公共数据集上获得了最先进的性能。

Mar, 2022

利用图变换网络对复杂文档布局中的文本语义进行建模

本文提出了一种基于图形表示的模型，并演示了我们不仅可以跨文档检索语义相似的信息，而且我们生成的嵌入空间也捕获了有用的语义信息，类似于仅适用于文本序列的语言模型。

Feb, 2022

Doc2Graph: 一种基于图神经网络的任务无关文档理解框架

这篇研究文章介绍了一种基于 GNN 模型的文档理解框架 ——Doc2Graph，可用于处理不同类型文档的不同任务，如发票布局分析及表格识别等，旨在提高信息提取的效率。

Aug, 2022