Wukong-Reader：用于细粒度视觉文档理解的多模态预训练

Dec, 2022

Wukong-Reader：用于细粒度视觉文档理解的多模态预训练

Wukong-Reader: Multi-modal Pre-training for Fine-grained Visual Document Understanding

Haoli Bai, Zhiguang Liu, Xiaojun Meng, Wentao Li, Shuang Liu...

TL;DR本文提出的 Wukong-Reader 通过各种新的预训练目标进行训练，以利用文档文本线中嵌套的结构知识。本文还介绍了文本线 - 区域对比学习、遮罩区域建模和文本线网格匹配等方法，以增强文本线的视觉和布局表示。实验结果表明，我们的 Wukong-Reader 在各种视觉文档理解任务中具有卓越的性能，具有有前途的定位能力。

Abstract

unsupervised pre-training on millions of digital-born or scanned documents has shown promising advances in visual document understanding~(VDU). While various vision-language pre-training objectives are studied in

unsupervised pre-training visual document understanding document textline wukong-reader fine-grained alignment

发现论文，激发创造

视觉引导的生成式文档布局预训练

给定一张文档图像，本研究提出了一种名为 ViTLP 的视觉引导生成文本 - 布局预训练模型，通过生成交错文本和布局序列来优化层次化语言和布局建模目标，以处理任意长度的文字密集型文档，并有效应用于各种下游的视觉文档理解任务。

Mar, 2024

细粒度语义对齐视觉 - 语言预训练

LOUPE 是一个 fine-grained semantically aligned vision-language pre-training framework，通过博弈论交互的新视角学习到精细的语义对齐，并进一步提出了一个基于 Uncertainty-Aware Shapley interaction 的神经网络模块来高效地计算博弈论交互。实验表明， LOUPE 在各种视觉 - 语言任务上均达到了最先进的性能。此外， LOUPE 实现了无需任何对象级人员注释和微调的目标检测和视觉定位的竞争性能，同时也开启了一个新的方向，即从大规模原始图像文本数据中学习精细语义。

Aug, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

多层次视觉语言预训练：将文本与视觉概念对齐

提出了一种名为 X-VLM 的多粒度视觉语言预训练方法，通过定位图像中的视觉概念并将其与文本进行对齐，实现了多粒度对齐，并将其应用于下游视觉语言任务中取得了优秀的效果，并超越了现有的最先进方法。

Nov, 2021

大型视觉 - 语言模型中利用对比学习增强视觉文档理解

利用对比学习框架 DoCo，该研究填补了大型视觉 - 语言模型在处理富文本场景中的细粒度特征缺失问题，提高了对文本丰富的文档的视觉表示，并在多个视觉文档理解基准上取得了优越的性能。

Feb, 2024

MGDoc: 多粒度分层预训练用于文档图像理解

我们提出了一个名为 MGDoc 的新的多模态、多粒度预训练框架，通过使用统一的文本 - 视觉编码器来获得不同粒度的多模态特征，以便把多个粒度的特征投影到相同的超空间中，并设计了跨粒度的注意机制和特定的预训练任务来建模区域和单词之间的关系，并展示该模型能够学习到更好的特征，在下游任务中表现出色。

Nov, 2022

UReader：基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力，我们在较低的训练成本下，通过在广泛的视觉语境理解任务上联合微调，设计了 UReader 模型，实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。

Oct, 2023

文档理解的统一预训练框架

UDoc 是一个新的文档理解的统一预训练框架，它通过使用三个自监督损失约束表示模型，将单词和视觉特征作为输入，使神经网络从无标签的数据中学习到更好的文档表示，并取得了下游任务的提升。

Apr, 2022

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解任务上，比现有的强基线模型表现更优秀。

Oct, 2021

DUBLIN -- 语言 - 图像网络理解文档

通过预训练 DUBLIN 模型，利用文档图像中的空间和语义信息，包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task，实现对象检测和文档图像理解，在各项基准测试中优于现有模型，尤其在 WebSRC 数据集，其 EM 值和 F1 值分别为 77.75 和 84.25，与文本型 SOTA 方法具有可比性。

May, 2023