Feb, 2024

GAOKAO-MM: 中国多模态模型评估的人类水平基准

TL;DR提出了 GAOKAO-MM,这是一个基于中国高考的多模态基准,评估了 10 个大型视觉语言模型 (LVLMs),发现它们的准确率都低于 50%,排名前三的是 GPT-4-Vison(48.1%),Qwen-VL-Plus(41.2%)和 Gemini-Pro-Vision(35.1%)。多维分析结果表明 LVLMs 在人工通用智能 (AGI) 方面有适度的距离,并为多语言 LVLMs 的发展提供了启示。