Mar, 2024

PuzzleVQA: 通过抽象视觉模式诊断语言模型的多模态推理挑战

TL;DR通过对抽象模式的基本概念进行评估,我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析,我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。