Jan, 2024

面包或吉娃娃?用多面板视觉语言模型挑战性大的 VQA 任务

TL;DR通过介绍 Multipanel Visual Question Answering (MultipanelVQA) 基准测试,本研究揭示了 Large Vision Language Models (LVLMs) 对于多子图像的理解存在的挑战,并强调了改进 LVLMs 在理解复杂视觉语境方面的需求和方向。