Jun, 2024

人类与多模态 LLMs 之间的视觉认知差距是什么?

TL;DR我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench,以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力,并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。