Oct, 2023

UReader:基于多模态大型语言模型的通用无 OCR 视觉智能语言理解

TL;DR通过利用 Multimodal Large Language Model (MLLM) 的浅层文本识别能力,我们在较低的训练成本下,通过在广泛的视觉语境理解任务上联合微调,设计了 UReader 模型,实现了 OCR-free 模式下在 8 个视觉语境理解任务上的最新表现。