Nov, 2023

大型语言模型为文本丰富的VQA带来的优势

TL;DR基于文本识别的图像视觉问答是一个跨模态任务,需要图像理解和文本识别。本文研究了基于LLM方法在解决此问题时的优势和瓶颈,并通过整合OCR模块和MLLM发现多数MLLM可以理解OCR信息,为训练保留LLM能力提供了启示。