Jul, 2023

mPLUG-DocOwl: 模块化的多模态大型语言模型对于文档理解

TL;DR我们提出了基于mPLUG-Owl的mPLUG-DocOwl,通过联合训练语言、视觉和文档指令调优数据集的统一指令调优策略,增强了OCR-free文档理解能力,并构建了用于比较模型能力的OCR-free文档指令理解评估集LLMDoc。实验结果表明,我们的模型优于现有的多模型模型,在不同下游任务上具有良好的泛化能力。