Feb, 2024

LAPDoc:文档的布局感知提示

TL;DR最近,在大规模使用纯文本数据训练大型语言模型(LLMs)的研究进展中,出现了强大的在许多领域和任务中的泛化能力,包括特定于文档的任务。与此相反,有一种趋势是训练多模态转换器架构,专门为文档理解而设计,旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本LLMs进行特定于文档任务的可能性,通过使用布局增强的方式。我们探索了插入修改和基于规则的方法,以将纯文本LLM提示与布局信息进行增强。我们的实验研究了商用ChatGPT模型和开源LLM Solar的效果。我们证明了使用我们的方法,两个LLMs在各种标准文档基准测试中均展现出改进的性能。此外,我们研究了有噪音的OCR和布局错误的影响,以及LLMs在利用文档布局方面的局限性。我们的结果表明,通过布局增强,相较于仅使用纯文本文档,纯文本LLMs在文档理解方面的性能可以提高多达15%。总之,在纯文本LLM或多模态文档转换器之间进行最佳模型选择时,应考虑这种方法。