Jul, 2024

KiVA:儿童启发的视觉类比用于测试大型多模态模型

TL;DR本研究解决了大型多模态模型在视觉类比推理方面的不足,尤其是对儿童和成人的比较。提出了一个包含1400个日常物品视觉变化的新基准,强调了这些模型在识别“变化内容”和应用规则方面的局限,发现模型在处理简单视觉属性时表现较好,但在复杂任务中面临显著挑战,揭示了仅基于2D图像和文本训练模型的局限性。