视觉引导的生成式文档布局预训练

ACLMar, 2024

视觉引导的生成式文档布局预训练

Visually Guided Generative Text-Layout Pre-training for Document Intelligence

Zhiming Mao, Haoli Bai, Lu Hou, Jiansheng Wei, Xin Jiang...

TL;DR给定一张文档图像，本研究提出了一种名为 ViTLP 的视觉引导生成文本 - 布局预训练模型，通过生成交错文本和布局序列来优化层次化语言和布局建模目标，以处理任意长度的文字密集型文档，并有效应用于各种下游的视觉文档理解任务。

Abstract

Prior study shows that pre-training techniques can boost the performance of visual document understanding (VDU), which typically requires models to gain abilities to perceive and reason both →

visual document understanding pre-training techniques vitlp document texts and layouts downstream vdu tasks

发现论文，激发创造

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解任务上，比现有的强基线模型表现更优秀。

Oct, 2021

LayoutLM: 文本和布局的文档图像理解预训练

本文提出了用于扫描文档图像的 LayoutLM 模型，实现了文本和布局信息的联合学习，将其应用于信息提取等实际文档图像理解任务中，成果在多项下游任务中达到最新的技术水平，代码和预训练模型可公开获取。

Dec, 2019

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

本文提出了一种弱监督的预训练方法 oCLIP，该方法通过联合学习视觉和文本信息来获取有效的场景文本表示，并能从弱注释文本中学习，可以有效地应对 OCR 任务。实验证明，该方法在多个公共数据集上都优于现有的预训练技术。

Mar, 2022

文档布局分析的视觉网格变换器

本文介绍了 VGT 模型，它是一种双流视觉格点变换器，通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解，利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外，还通过 D$^4$LA 数据集，在文档布局分析中达到了最新的最佳性能。

Aug, 2023

基于生成式文本引导的三维视觉语言预训练，用于统一医学图像分割

本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证，结果表明该方法在医学图像分割任务中的效果优异。

Jun, 2023

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

LayoutMask：以多模态预训练增强文档理解中的文本布局交互

本论文旨在改进文本布局交互，提出了一种新的多模态预训练模型 LayoutMask，该模型使用本地 1D 位置作为布局输入，并具有两个预训练目标：掩码语言建模和掩码位置建模，LayoutMask 可以增强文本和布局模态之间的交互，并为下游任务生成自适应和鲁棒的多模态表示。

May, 2023