StrucTexTv2: 遮蔽式视觉文本预测用于文档图像预训练

ICLRMar, 2023

StrucTexTv2: 遮蔽式视觉文本预测用于文档图像预训练

StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training

Yuechen Yu, Yulin Li, Chengquan Zhang, Xiaoqiang Zhang, Zengyuan Guo...

TL;DR本文提出了一种名为 StrucTexTv2 的有效的文档图像预训练框架，通过执行掩码视觉 - 文本预测。它由两个自我监督的预训练任务组成：掩码图像建模和掩码语言建模，基于文本区域级别的图像掩码。经实验验证，该模型在文档图像理解的各个下游任务中均取得了具有竞争力甚至是最新的最佳性能。

Abstract

In this paper, we present StrucTexTv2, an effective document image pre-training framework, by performing masked visual-textual prediction. It consists of two self-supervised pre-training tasks: masked image modeling and masked language modeling, based on text region-level image masking

document image pre-training masked language modeling textual semantics document image understanding ocr

发现论文，激发创造

StrucTexTv3：一个高效的视觉语言模型，适用于文本丰富的图像感知、理解和更多

StrucTexTv3 是一种高效的视觉语言模型，通过采用多尺度减少可视转换器和多粒度令牌采样器作为视觉令牌生成器，结合指令学习提高感知与理解能力，并使用 TIM-30M 来提升模型的鲁棒性，实现了领先的文本丰富图像感知任务和理解任务的结果，展现了广泛应用的巨大潜力。

May, 2024

StrucTexT: 多模态 Transformer 的结构化文本理解

本文提出一种名为 StrucTexT 的统一框架，该框架使用 transformer 构建了一个段 - 标记对齐的编码器来处理文档上下文中不同层面的实体标记和链接任务，并使用三个自监督任务设计了一种新颖的预训练策略，以有效地提取多模态信息，从而优于 FUNSD，SROIE 和 EPHOIE 数据集的现有方法。

Aug, 2021

LayoutMask：以多模态预训练增强文档理解中的文本布局交互

本论文旨在改进文本布局交互，提出了一种新的多模态预训练模型 LayoutMask，该模型使用本地 1D 位置作为布局输入，并具有两个预训练目标：掩码语言建模和掩码位置建模，LayoutMask 可以增强文本和布局模态之间的交互，并为下游任务生成自适应和鲁棒的多模态表示。

May, 2023

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

Pix2Struct: 屏幕截图解析用于视觉语言理解的预训练

Pix2Struct 是一种预先训练的图像到文本模型，能够解析丰富的文本，可用于多个领域任务，实现了最先进的结果。

Oct, 2022

基于统一模态屏蔽的序列到序列预训练用于视觉文档理解

本文提出 GenDoc，这是一个使用序列到序列模型进行预训练的通用文档理解模型，该模型采用编码器 - 解码器架构，可适应多种输出格式的下游任务，通过包括掩码图像令牌预测和掩码布局预测在内的多个任务进行预训练，采用分离的注意力和模态专家策略来有效地捕获每种模态利用的信息，实验结果显示，与最先进的方法相比，该模型具有更强的鲁棒性。

May, 2023

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法，用于统一文本和图像遮蔽，并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明，LayoutLMv3 不仅在文本中心任务中实现了最先进的性能，而且在以图像为中心的任务中也是如此。

Apr, 2022

LocTex: 从本地文本监督中学习数据高效视觉表征

本文提出了一种名为 LocTex 的计算机视觉方法，它利用了低成本的本地化文本标注和鼠标轨迹，通过对图像和标题的对比预训练和监督跨模态关注图，从而提供粗略的本地化信号，从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化，可以转移到各种下游视觉任务中，并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍，同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下，LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。

Aug, 2021

学习区域的视频文本预训练

本研究提出一种新的视频文本表示学习模块（RegionLearner），能够在大规模视频文本对的预训练中考虑对象结构，并通过语义群聚来合并视觉特征，最终通过不同聚合区域之间的交互来建模，从而促进视频文本检索的效果。

Dec, 2021