基于统一模态屏蔽的序列到序列预训练用于视觉文档理解

May, 2023

基于统一模态屏蔽的序列到序列预训练用于视觉文档理解

Sequence-to-Sequence Pre-training with Unified Modality Masking for Visual Document Understanding

Shuwei Feng, Tianyang Zhan, Zhanming Jie, Trung Quoc Luong, Xiaoran Jin

TL;DR本文提出 GenDoc，这是一个使用序列到序列模型进行预训练的通用文档理解模型，该模型采用编码器 - 解码器架构，可适应多种输出格式的下游任务，通过包括掩码图像令牌预测和掩码布局预测在内的多个任务进行预训练，采用分离的注意力和模态专家策略来有效地捕获每种模态利用的信息，实验结果显示，与最先进的方法相比，该模型具有更强的鲁棒性。

Abstract

This paper presents gendoc, a general sequence-to-sequence document understanding model pre-trained with unified masking across three modalities: text, image, and layout. The proposed model utilizes an encoder-decoder architecture, which allows for increased adaptability to a wide rang

gendoc sequence-to-sequence model pre-training document understanding modality-specific instruction

发现论文，激发创造

SelfDoc: 自我监督文件表示学习

SelfDoc 是一个文档图像理解的任务无关的预训练框架，利用文档的位置、文本和视觉信息，并建模内容块之间的上下文关系，提出了一种新的跨模态学习模型，优于现有模型，同时具有自适应的视觉语言融合机制并应用自监督模型预训练，与以前作品相比，使用较少的文档图片达到更好的性能。

Jun, 2021

文档理解的统一预训练框架

UDoc 是一个新的文档理解的统一预训练框架，它通过使用三个自监督损失约束表示模型，将单词和视觉特征作为输入，使神经网络从无标签的数据中学习到更好的文档表示，并取得了下游任务的提升。

Apr, 2022

LayoutMask：以多模态预训练增强文档理解中的文本布局交互

本论文旨在改进文本布局交互，提出了一种新的多模态预训练模型 LayoutMask，该模型使用本地 1D 位置作为布局输入，并具有两个预训练目标：掩码语言建模和掩码位置建模，LayoutMask 可以增强文本和布局模态之间的交互，并为下游任务生成自适应和鲁棒的多模态表示。

May, 2023

LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法，用于统一文本和图像遮蔽，并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明，LayoutLMv3 不仅在文本中心任务中实现了最先进的性能，而且在以图像为中心的任务中也是如此。

Apr, 2022

UniDoc：一种用于同时文本检测、识别、标定和理解的通用大型多模态模型

在大型语言模型（LLMs）时代，我们介绍了一种名为 UniDoc 的新型多模态模型，该模型具备文本检测和识别能力，并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优，实验结果表明 UniDoc 在多个挑战性基准测试中取得了最先进的成绩，是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。

Aug, 2023

基于图注意力网络的多模态预训练在文档理解中的应用

本文提出了一种基于多模态图注意力机制的图文结合的自动文档分析模型 (GraphDoc)，该模型利用文本、布局和图像信息进行多模态预训练，并通过门控融合层对每个节点进行多模态特征融合，通过图注意层建模每个节点之间的上下文关系，学习了仅使用 320k 未标注文档的通用表示，在公共数据集上获得了最先进的性能。

Mar, 2022

TransferDoc: 一种自监督可转移的文档表示学习模型，统一视觉和语言

TransferDoc 是跨模态 transformer 架构，通过在自我监督学习中使用三个新颖的预训练目标，实现更丰富的语义概念的学习，从而在工业评估场景中胜过其他最先进的方法。

Sep, 2023

StrucTexTv2: 遮蔽式视觉文本预测用于文档图像预训练

本文提出了一种名为 StrucTexTv2 的有效的文档图像预训练框架，通过执行掩码视觉 - 文本预测。它由两个自我监督的预训练任务组成：掩码图像建模和掩码语言建模，基于文本区域级别的图像掩码。经实验验证，该模型在文档图像理解的各个下游任务中均取得了具有竞争力甚至是最新的最佳性能。

Mar, 2023

XDoc: 跨格式文档理解的统一预训练

提出了一种名为 XDoc 的文档理解模型，该模型采用了预训练和微调框架用于处理不同格式的文档，该模型具有参数效率和适应性层等优点。

Oct, 2022

DocFormerv2: 文档理解的本地特征

提出了一种多模态 Transformer 模型 - DocFormerv2，应用于视觉文档理解领域，在多个数据集上都取得了最先进的结果，并通过大量消融实验证明了其预训练和无监督任务设计的有效性。

Jun, 2023