文档布局分析的视觉网格变换器

ICCVAug, 2023

Vision Grid Transformer for Document Layout Analysis

Cheng Da, Chuwei Luo, Qi Zheng, Cong Yao

TL;DR本文介绍了 VGT 模型，它是一种双流视觉格点变换器，通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解，利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外，还通过 D$^4$LA 数据集，在文档布局分析中达到了最新的最佳性能。

Abstract

Document pre-trained models and grid-based models have proven to be very effective on various tasks in Document AI. However, for the document layout analysis (DLA) task, existing document pre-trained models, even

document layout analysis pre-trained models multi-modal information vgt model d$^4$la dataset

发现论文，激发创造

视觉引导的生成式文档布局预训练

给定一张文档图像，本研究提出了一种名为 ViTLP 的视觉引导生成文本 - 布局预训练模型，通过生成交错文本和布局序列来优化层次化语言和布局建模目标，以处理任意长度的文字密集型文档，并有效应用于各种下游的视觉文档理解任务。

Mar, 2024

3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

提出了 3D-VisTA，一个用于 3D 视觉和文本对齐的预训练 Transformer 模型，可轻松适应各种下游任务，通过在 ScanScribe 数据集上进行预训练，获得了在各种 3D-VL 任务上的最先进结果，同时展示了出色的数据效率。

Aug, 2023

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

LaTr: 面向场景文本 VQA 的布局感知 Transformer

提出了一种新的多模态体系结构 Layout-Aware Transformer（LaTr）来进行场景文本视觉问答（STVQA），并提出了一种单一目标的预训练方案，该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来，可以学习各种空间线索，从而提高了对 OCR 错误的鲁棒性，并在多个数据集上优于最先进的 STVQA 方法。

Dec, 2021

文档布局分析的图形方法

文档布局分析是检测文档中不同的语义内容并正确分类到适当类别（如文本、标题、图表）的任务。本研究采用基于图的布局分析模型（GLAM），将每个 PDF 页面表示为结构化图，并将布局分析问题作为图分割和分类问题进行。与现有模型相比，GLAM 既能在两个具有挑战性的数据集上与现有模型相媲美，又比现有模型小一个数量级。

Aug, 2023

DLAFormer：文档布局分析的端到端 Transformer

本文介绍了一种名为 DLAFormer 的基于 Transformer 的文档布局分析方法，将各个子任务整合到一个模型中，利用统一的关系预测模块同时处理多个任务，并引入一组类型化查询来增强 DET 的内容查询的物理意义，采用粗细策略准确识别图形页对象。实验证明，DLAFormer 在两个文档布局分析基准数据集 DocLayNet 和 Comp-HRDoc 上胜过先前采用多分支或多阶段架构的方法。

May, 2024

GiT: 通向通用视觉 Transformer 的普适语言接口

这篇论文提出了一种简单而有效的框架，名为 GiT，它能够同时适用于各种视觉任务，只需一个简单的 ViT 模型。

Mar, 2024

视频问题回答的视频图变换器

该研究论文提出了一种名为 VGT 的视频图形转换器模型，旨在解决视频问答任务中动态关系推理方面的挑战，其独特性在于利用动态图形变换器模块对视频进行编码，并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察，证明了 VGT 的有效性和优越性，并揭示了其可用于更数据有效的预训练。

Jul, 2022

基于 MViTv2 的 BaDLAD 数据集的文档布局分析方法

在数字化快速发展的时代，文档布局的分析在自动化信息提取和解释中起着重要作用。通过在 BaDLAD 数据集上训练 MViTv2 转换器模型架构与级联掩膜 R-CNN，我们从文档中提取了文本框、段落、图像和表格。通过对 20365 个文档图像进行 36 个周期的训练，在 3 个阶段的循环中，我们取得了 0.2125 的训练损失和 0.19 的掩膜损失。同时，我们还探讨了旋转和翻转增强、在推理前对输入图像进行切片、改变转换器主干的分辨率以及使用双通道推理来发现遗漏的文本框等潜在的增强方法。通过这些探索，我们观察到一系列结果，一些修改带来了实质性的性能改进，而其他的修改为未来的努力提供了独特的见解。

Aug, 2023