LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

Apr, 2022

LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei

TL;DR本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法，用于统一文本和图像遮蔽，并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明，LayoutLMv3 不仅在文本中心任务中实现了最先进的性能，而且在以图像为中心的任务中也是如此。

Abstract

self-supervised pre-training techniques have achieved remarkable progress in document ai. Most multimodal pre-trained models use a masked

self-supervised pre-training multimodal pre-trained models layoutlmv3 document ai cross-modal alignment

发现论文，激发创造

LayoutMask：以多模态预训练增强文档理解中的文本布局交互

本论文旨在改进文本布局交互，提出了一种新的多模态预训练模型 LayoutMask，该模型使用本地 1D 位置作为布局输入，并具有两个预训练目标：掩码语言建模和掩码位置建模，LayoutMask 可以增强文本和布局模态之间的交互，并为下游任务生成自适应和鲁棒的多模态表示。

May, 2023

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

LayoutLM: 文本和布局的文档图像理解预训练

本文提出了用于扫描文档图像的 LayoutLM 模型，实现了文本和布局信息的联合学习，将其应用于信息提取等实际文档图像理解任务中，成果在多项下游任务中达到最新的技术水平，代码和预训练模型可公开获取。

Dec, 2019

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Nov, 2022

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解任务上，比现有的强基线模型表现更优秀。

Oct, 2021

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

LayoutXLM: 多模态预训练用于多语种视觉丰富文档理解

本文提出了一种基于 LayoutXLM 的多模态预训练模型，用于多语言文档理解，并在名为 XFUND 的多语言表单理解基准数据集上进行了验证，结果表明 LayoutXLM 模型在跨语言预训练方面优于现有的 SOTA 模型。

Apr, 2021