Aug, 2024

视觉语言模型能否准确看到图像细节?

TL;DR本研究针对现有视觉语言模型(VLMs)在图像细节感知方面的不足,提出了一种新的像素值预测任务(PVP)。通过调整视觉编码器,研究表明在预训练阶段融合像素值预测任务可以显著提升VLMs在图像理解应用中的表现,特别是在图像语义分割和视频游戏决策中的应用效果显著改善。