Nov, 2024

文本布局感知预训练的丰富视觉-语言模型

TL;DR本研究针对视觉-语言模型在处理图像中的文本信息时面临的挑战,提出了一种新方法TAP-VL,能够将光学字符识别(OCR)信息作为一种独立的模态并与视觉-语言模型无缝集成。通过轻量级的转化器基础OCR模块的预训练和微调,TAP-VL在多个基准测试上显著提高了VL模型的性能,展现出其在图像理解中的潜在影响。