Feb, 2024
大型视觉语言模型的图像推理与描述的认知评估基准
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision Language Models
Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen
TL;DR通过使用具有丰富语义的图像,我们提出了一种新的评估基准,评估大规模视觉语言模型(LVLMs)的高级认知能力。该基准定义了八种推理能力,并包括图像描述任务和视觉问答任务。我们对知名的 LVLMs 进行评估发现,LVLMs 与人类之间的认知能力差距仍然很大。