文档智能：基于 Transformer、基于图的模型和卷积神经网络的文档布局分析的比较研究

Aug, 2023

文档智能：基于 Transformer、基于图的模型和卷积神经网络的文档布局分析的比较研究

Document AI: A Comparative Study of Transformer-Based, Graph-Based Models, and Convolutional Neural Networks For Document Layout Analysis

PDF

Sotirios Kastanas, Shaomu Tan, Yi He

TL;DR本研究旨在对文档布局分析的最先进模型进行比较评估，并利用机器翻译技术探索跨语言文档布局分析的潜力。

Abstract

document ai aims to automatically analyze documents by leveraging natural language processing and computer vision techniques. One of the major tasks of →

document ai document layout analysis natural language processing computer vision cross-lingual layout analysis

发现论文，激发创造

文档 AI：基准、模型和应用

本文简要介绍了文档智能技术的发展和应用，重点关注了基于深度学习的自然语言处理和计算机视觉方法，提出了利用预训练技术的深度学习方法作为未来文档智能研究的方向。

Nov, 2021

利用图变换网络对复杂文档布局中的文本语义进行建模

本文提出了一种基于图形表示的模型，并演示了我们不仅可以跨文档检索语义相似的信息，而且我们生成的嵌入空间也捕获了有用的语义信息，类似于仅适用于文本序列的语言模型。

Feb, 2022

文档图像中的文档布局分析的混合方法

这篇论文探讨了文档布局分析，使用先进的基于 Transformer 的对象检测网络作为创新的图形页面对象检测器，以识别表格、图形和展示元素。通过引入查询编码机制，提供高质量的对象查询进行对比学习，增强了解码器阶段的效率。同时，本方法采用混合匹配方案，在训练阶段将解码器的一对一匹配策略与一对多匹配策略相结合，旨在提高模型在页面上检测各种图形元素的准确性和通用性。实验结果表明，该方法在 PubLayNet、DocLayNet 和 PubTables 等基准测试上的表现超过了现有的最先进方法，PubLayNet 的平均精度为 97.3%，DocLayNet 的精度为 81.6%，PubTables 的精度为 98.6%，证明了其在布局分析方面的优越性能。这些进步不仅提高了将文档图片转换为可编辑和可访问格式的能力，还简化了信息检索和数据提取过程。

Apr, 2024

一个多模态多语言文件图像分类基准

文档图像分类是一项与纯文本文档分类不同的任务，它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC，克服了现有数据集的限制。此外，本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。

Oct, 2023

能否让人工智能模型欣赏文件美学？关于预测自信程度与可读性和布局质量的探究

通过对文档设计原则的分析以及与人类认知和人工智能对文档审美的解读之间的桥梁，本研究通过相关性分析测试了噪声、字体大小对比、对齐和复杂性等四个审美效果对模型置信度的影响，结果和观察强调了基于文档设计理论的模型分析的价值，提供了进一步研究的新视角，呼吁对 AI 解读文档审美的深入研究。

Mar, 2024

文档图像分类卷积神经网络分析

通过对卷积神经网络 CNNs 模型对文件图像分类任务的研究，我们发现使用剪切变形的数据扩增和一个针对更大输入图像设计的架构，可以超过基准数据集的现有技术，并且我们发现使用 RVL-CDIP 训练的 CNNs 可以学习区域特定的布局特征。

Aug, 2017

Doc-GCN: 面向文档布局分析的异构图卷积网络

我们提出了一种新的文档布局分析方法，即 Doc-GCN ，该方法通过构建图形来描述文档的固有特征并将这些信息应用于图卷积网络中。最终结果表明，我们的方法在三个常用的 DLA 数据集中取得了新的最佳结果。

Aug, 2022

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023

使用单个卷积神经网络建模，可视化和摘要文档

通过提出一种基于动态卷积神经网络的模型，在不需要特征工程的情况下，能够从低级别的词汇特征到高级别的语义概念逐级学习，从而有效地在文档建模任务中学习到文档的含义，同时提出一种新的可视化技术，能够提供有关文档网络学习过程的见解，产生一种引人注目的文本自动摘要系统。

Jun, 2014

Text-Image-Layout Transformer 技术在文档理解中的全面应用

本文介绍了 TILT 神经网络架构，该架构同时学习布局信息、视觉特征和文本语义的自然语言理解方式。与以往的方法不同，我们依赖于一个能够统一涉及自然语言的各种问题的解码器。该架构的核心是一个预训练的编码器 - 解码器 Transformer，其中布局表示为注意力偏差，并与上下文化的视觉信息相结合。我们的新方法在从文档中提取信息并回答需要布局理解的问题（如 DocVQA、CORD、SROIE）方面取得了最先进的结果。同时，我们通过采用端到端模型简化了该过程。

Feb, 2021