Feb, 2024

GAOKAO-MM: 中国多模态模型评估的人类水平基准

TL;DR提出了GAOKAO-MM,这是一个基于中国高考的多模态基准,评估了10个大型视觉语言模型(LVLMs),发现它们的准确率都低于50%,排名前三的是GPT-4-Vison(48.1%),Qwen-VL-Plus(41.2%)和Gemini-Pro-Vision(35.1%)。多维分析结果表明LVLMs在人工通用智能(AGI)方面有适度的距离,并为多语言LVLMs的发展提供了启示。