MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

ACLOct, 2021

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding

Junlong Li, Yiheng Xu, Lei Cui, Furu Wei

TL;DR本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解任务上，比现有的强基线模型表现更优秀。

Abstract

multimodal pre-training with text, layout, and image has made significant progress for visually rich document understanding (VRDU), especially the fixed-layout documents such as scanned document images. While, th

multimodal pre-training visually rich document understanding markuplm document understanding tasks markup languages

发现论文，激发创造

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

LayoutLM: 文本和布局的文档图像理解预训练

本文提出了用于扫描文档图像的 LayoutLM 模型，实现了文本和布局信息的联合学习，将其应用于信息提取等实际文档图像理解任务中，成果在多项下游任务中达到最新的技术水平，代码和预训练模型可公开获取。

Dec, 2019

层次化多模态预训练以理解视觉丰富的网页

通过整合文本、结构和图像等多模态信息，使用多模态预训练网络进行自动文档理解和信息提取，实现了对网页的深入理解，显著提高了网页理解任务的性能。

Feb, 2024

LayoutMask：以多模态预训练增强文档理解中的文本布局交互

本论文旨在改进文本布局交互，提出了一种新的多模态预训练模型 LayoutMask，该模型使用本地 1D 位置作为布局输入，并具有两个预训练目标：掩码语言建模和掩码位置建模，LayoutMask 可以增强文本和布局模态之间的交互，并为下游任务生成自适应和鲁棒的多模态表示。

May, 2023

LayoutXLM: 多模态预训练用于多语种视觉丰富文档理解

本文提出了一种基于 LayoutXLM 的多模态预训练模型，用于多语言文档理解，并在名为 XFUND 的多语言表单理解基准数据集上进行了验证，结果表明 LayoutXLM 模型在跨语言预训练方面优于现有的 SOTA 模型。

Apr, 2021

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021

LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法，用于统一文本和图像遮蔽，并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明，LayoutLMv3 不仅在文本中心任务中实现了最先进的性能，而且在以图像为中心的任务中也是如此。

Apr, 2022

视觉引导的生成式文档布局预训练

给定一张文档图像，本研究提出了一种名为 ViTLP 的视觉引导生成文本 - 布局预训练模型，通过生成交错文本和布局序列来优化层次化语言和布局建模目标，以处理任意长度的文字密集型文档，并有效应用于各种下游的视觉文档理解任务。

Mar, 2024

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020