CVPRApr, 2024

LayoutLLM:利用大型语言模型对版面指令进行调优以提高文档理解能力

TL;DR本研究提出了一种基于 LLM / MLLM 的文档理解方法 LayoutLLM,核心是一种专门设计的布局指令调整策略,通过布局感知的预训练和布局感知的监督微调来提高对文档布局的理解和利用,同时使用 LayoutCoT 模块来生成准确答案并提升文档理解的性能。