一个框框相当于一个记号：在大型语言模型中交叉布局和文本以实现文档理解

Jul, 2024

一个框框相当于一个记号：在大型语言模型中交叉布局和文本以实现文档理解

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang...

TL;DR通过将OCR派生文本和空间布局与大型语言模型（LLM）相结合，并在LayTextLLM中交织布局和文本，可以显著提高文档理解任务的效果。LayTextLLM在布局和文本数据的交互中简化了操作，并在关键信息提取（KIE）和视觉问答（VQA）方面展示出更好的性能。

Abstract

Recently, many studies have demonstrated that exclusively incorporating ocr-derived text and spatial layouts with large language models (LLMs) can be highly effective for →

发现论文，激发创造

LayoutLM: 文本和布局的文档图像理解预训练

本文提出了用于扫描文档图像的LayoutLM模型，实现了文本和布局信息的联合学习，将其应用于信息提取等实际文档图像理解任务中，成果在多项下游任务中达到最新的技术水平，代码和预训练模型可公开获取。

Dec, 2019

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP和DocVQA等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

高效端到端视觉文档理解与根据聚类

通过小型的预训练图像到文本模型，我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理，取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进，超过直接预测答案的相似 Pix2Struct 模型 4% 以上。

Nov, 2023

DocLLM: 多模态文档理解的自适应生成语言模型

研究论文通过设计DocLLM模型，结合文本语义和空间布局，以有效地理解企业文件的丰富语义，摆脱昂贵的图像编码器，侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件，通过预训练和微调，优于当前最优模型在多个任务中的性能，并且对于先前未见过的数据集具有较好的泛化能力。

Dec, 2023

LAPDoc：文档的布局感知提示

最近，在大规模使用纯文本数据训练大型语言模型（LLMs）的研究进展中，出现了强大的在许多领域和任务中的泛化能力，包括特定于文档的任务。与此相反，有一种趋势是训练多模态转换器架构，专门为文档理解而设计，旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本LLMs进行特定于文档任务的可能性，通过使用布局增强的方式。我们探索了插入修改和基于规则的方法，以将纯文本LLM提示与布局信息进行增强。我们的实验研究了商用ChatGPT模型和开源LLM Solar的效果。我们证明了使用我们的方法，两个LLMs在各种标准文档基准测试中均展现出改进的性能。此外，我们研究了有噪音的OCR和布局错误的影响，以及LLMs在利用文档布局方面的局限性。我们的结果表明，通过布局增强，相较于仅使用纯文本文档，纯文本LLMs在文档理解方面的性能可以提高多达15%。总之，在纯文本LLM或多模态文档转换器之间进行最佳模型选择时，应考虑这种方法。

Feb, 2024

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

LayoutLLM：利用大型语言模型对版面指令进行调优以提高文档理解能力

本研究提出了一种基于LLM / MLLM的文档理解方法LayoutLLM，核心是一种专门设计的布局指令调整策略，通过布局感知的预训练和布局感知的监督微调来提高对文档布局的理解和利用，同时使用LayoutCoT模块来生成准确答案并提升文档理解的性能。

Apr, 2024

大型语言模型理解布局

大型语言模型 (LLMs) 在自然语言处理 (NLP) 任务中展现出非凡的能力。本文展示了除了文本理解能力外，LLMs 还能够处理由空间标记指定的文本布局。通过在各种类型的布局敏感数据集上进行一系列实验，我们发现 LLMs 的布局理解能力主要是通过预训练编码数据引入的，并在指令调整阶段进一步增强。此外，布局理解可以通过集成低成本、自动生成的文本游戏数据来提高。最后，我们展示了布局理解能力对于构建高效的视觉问答 (VQA) 系统的益处。

Jul, 2024

DocLayLLM：一种高效且有效的多模态大语言模型扩展，用于文本丰富的文档理解

本文解决了文本丰富文档理解中的效率和效果问题，提出了DocLayLLM，这是一种专为文档理解设计的多模态大语言模型扩展。通过将视觉补丁令牌和二维位置令牌集成到大语言模型中，结合链式思维技术，本研究展示了DocLayLLM在训练设置轻量化的情况下，能够显著提升文档理解能力，超越传统的OCR依赖方法和无OCR竞争者。

Aug, 2024

DocLayLLM：一种高效且有效的多模态扩展大型语言模型以理解文本丰富的文档

本研究解决了文本丰富文档理解的挑战，提出了DocLayLLM，这是一种专为该领域设计的多模态扩展。通过整合视觉补丁标记和2D位置标记，我们提升了大型语言模型对OCR信息的感知能力。实验结果表明，DocLayLLM在轻量化训练设置下表现优异，超越了现有的依赖OCR的方法以及无OCR竞争者。

Aug, 2024