Aug, 2023

UniDoc:一种用于同时文本检测、识别、标定和理解的通用大型多模态模型

TL;DR在大型语言模型(LLMs)时代,我们介绍了一种名为 UniDoc 的新型多模态模型,该模型具备文本检测和识别能力,并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优,实验结果表明 UniDoc 在多个挑战性基准测试中取得了最先进的成绩,是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。