Aug, 2023
UniDoc:一种用于同时文本检测、识别、标定和理解的通用大型多模态模型
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding
Hao Feng, Zijian Wang, Jingqun Tang, Jinghui Lu, Wengang Zhou...
TL;DR在大型语言模型(LLMs)时代,我们介绍了一种名为 UniDoc 的新型多模态模型,该模型具备文本检测和识别能力,并通过任务之间的有益互动来提升整体性能。利用大规模指令遵循数据集进行统一的多模态指导调优,实验结果表明 UniDoc 在多个挑战性基准测试中取得了最先进的成绩,是第一个能够同时进行文本检测、识别、定位和理解的大型多模态模型。