Mar, 2024
mPLUG-DocOwl 1.5:OCR-free 文档理解的统一结构学习
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang...
TL;DR利用结构信息提升多模态大型语言模型在视觉文档理解中的性能,通过构建一种新的统一结构学习方法,设计了一个简单而有效的 H-Reducer 视觉到文本模块,并构建了相应的训练数据集和细致解释能力的推理调优数据集,提升了视觉文档理解基准任务的性能。