COLINGMar, 2024

LayoutLLM:针对视觉丰富文档理解的大语言模型指令调整

TL;DR本文提出了 LayoutLLM,一种更灵活的文档分析方法,用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势,通过与多模态指令数据集进行微调,提出的模型在单个模型中执行对文档图像的理解,并通过实验证明在各种文档分析任务中改进了基线模型。