Mar, 2024

mPLUG-DocOwl 1.5:OCR-free 文档理解的统一结构学习

TL;DR利用结构信息提升多模态大型语言模型在视觉文档理解中的性能,通过构建一种新的统一结构学习方法,设计了一个简单而有效的 H-Reducer 视觉到文本模块,并构建了相应的训练数据集和细致解释能力的推理调优数据集,提升了视觉文档理解基准任务的性能。