LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

COLINGMar, 2024

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding

Masato Fujitake

TL;DR本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Abstract

This paper proposes layoutllm, a more flexible document analysis method for understanding imaged documents. →

document analysis imaged documents visually rich document understanding layoutllm language models

发现论文，激发创造

LayoutLLM：利用大型语言模型对版面指令进行调优以提高文档理解能力

本研究提出了一种基于 LLM / MLLM 的文档理解方法 LayoutLLM，核心是一种专门设计的布局指令调整策略，通过布局感知的预训练和布局感知的监督微调来提高对文档布局的理解和利用，同时使用 LayoutCoT 模块来生成准确答案并提升文档理解的性能。

Apr, 2024

DocLLM: 多模态文档理解的自适应生成语言模型

研究论文通过设计 DocLLM 模型，结合文本语义和空间布局，以有效地理解企业文件的丰富语义，摆脱昂贵的图像编码器，侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件，通过预训练和微调，优于当前最优模型在多个任务中的性能，并且对于先前未见过的数据集具有较好的泛化能力。

Dec, 2023

LayoutLM: 文本和布局的文档图像理解预训练

本文提出了用于扫描文档图像的 LayoutLM 模型，实现了文本和布局信息的联合学习，将其应用于信息提取等实际文档图像理解任务中，成果在多项下游任务中达到最新的技术水平，代码和预训练模型可公开获取。

Dec, 2019

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023

LAPDoc：文档的布局感知提示

最近，在大规模使用纯文本数据训练大型语言模型（LLMs）的研究进展中，出现了强大的在许多领域和任务中的泛化能力，包括特定于文档的任务。与此相反，有一种趋势是训练多模态转换器架构，专门为文档理解而设计，旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性，通过使用布局增强的方式。我们探索了插入修改和基于规则的方法，以将纯文本 LLM 提示与布局信息进行增强。我们的实验研究了商用 ChatGPT 模型和开源 LLM Solar 的效果。我们证明了使用我们的方法，两个 LLMs 在各种标准文档基准测试中均展现出改进的性能。此外，我们研究了有噪音的 OCR 和布局错误的影响，以及 LLMs 在利用文档布局方面的局限性。我们的结果表明，通过布局增强，相较于仅使用纯文本文档，纯文本 LLMs 在文档理解方面的性能可以提高多达 15%。总之，在纯文本 LLM 或多模态文档转换器之间进行最佳模型选择时，应考虑这种方法。

Feb, 2024

LayoutXLM: 多模态预训练用于多语种视觉丰富文档理解

本文提出了一种基于 LayoutXLM 的多模态预训练模型，用于多语言文档理解，并在名为 XFUND 的多语言表单理解基准数据集上进行了验证，结果表明 LayoutXLM 模型在跨语言预训练方面优于现有的 SOTA 模型。

Apr, 2021

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解任务上，比现有的强基线模型表现更优秀。

Oct, 2021

提升文档理解能力的研究：基于 MLLMs 的文本定位探索

在文档理解领域，本文提出了一种文本定位的文档理解模型，命名为 TGDoc，通过增强多模态大型语言模型（MLLMs）的能力来识别图像内文本的空间位置，以提高文本内容解释的准确性，从而提高对文本丰富图像的理解能力。实验证据表明，文本定位方法在多个文本丰富基准测试中取得了最先进的性能，验证了我们方法的有效性。

Nov, 2023

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021