Jan, 2024
面包或吉娃娃?用多面板视觉语言模型挑战性大的 VQA 任务
Muffin or Chihuahua? Challenging Large Vision-Language Models with Multipanel VQA
Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang...
TL;DR通过介绍 Multipanel Visual Question Answering (MultipanelVQA) 基准测试,本研究揭示了 Large Vision Language Models (LVLMs) 对于多子图像的理解存在的挑战,并强调了改进 LVLMs 在理解复杂视觉语境方面的需求和方向。