May, 2023

关于大型多模型模型中 OCR 的隐秘之谜

TL;DR该论文通过对现有公开的多模态模型进行综合研究,评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能,发现这些模型主要依赖于语义理解进行字识别,对单个字符形状的感知较差,同时对文本长度漠不关心,无法有效检测图像中的细粒度特征,在传统文本任务中尚无法与领域特定方法相媲美,面临更大的挑战。