Dec, 2023

在线视觉问答中 GPT-4V 和 Gemini 的评估

TL;DR我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型,并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据,我们分析了 GPT-4V 和 Gemini 的零样本性能,并确定了这两个模型的最具挑战性的问题。