Feb, 2024

大型视觉语言模型的图像推理与描述的认知评估基准

TL;DR通过使用具有丰富语义的图像,我们提出了一种新的评估基准,评估大规模视觉语言模型(LVLMs)的高级认知能力。该基准定义了八种推理能力,并包括图像描述任务和视觉问答任务。我们对知名的 LVLMs 进行评估发现,LVLMs 与人类之间的认知能力差距仍然很大。