LAPDoc：文档的布局感知提示

Feb, 2024

LAPDoc: Layout-Aware Prompting for Documents

Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk Krechel...

TL;DR最近，在大规模使用纯文本数据训练大型语言模型（LLMs）的研究进展中，出现了强大的在许多领域和任务中的泛化能力，包括特定于文档的任务。与此相反，有一种趋势是训练多模态转换器架构，专门为文档理解而设计，旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本LLMs进行特定于文档任务的可能性，通过使用布局增强的方式。我们探索了插入修改和基于规则的方法，以将纯文本LLM提示与布局信息进行增强。我们的实验研究了商用ChatGPT模型和开源LLM Solar的效果。我们证明了使用我们的方法，两个LLMs在各种标准文档基准测试中均展现出改进的性能。此外，我们研究了有噪音的OCR和布局错误的影响，以及LLMs在利用文档布局方面的局限性。我们的结果表明，通过布局增强，相较于仅使用纯文本文档，纯文本LLMs在文档理解方面的性能可以提高多达15%。总之，在纯文本LLM或多模态文档转换器之间进行最佳模型选择时，应考虑这种方法。

Abstract

Recent advances in training large language models (LLMs) using massive amounts of solely textual data lead to strong generalization across many domains and tasks, including document-specific tasks. Opposed to tha