Nov, 2023

对基于知识的视觉问答模型 GPT-4V 的全面评估

TL;DR通过从三个角度对 GPT-4V 进行深入评估,即常识知识、细粒度世界知识和具有决策理由的综合知识,我们发现 GPT-4V 在这三项任务上均取得了最好的性能,并且在使用复合图像进行少样本学习时具有增强的推理和解释能力,但在处理世界知识时可能导致严重的错觉,未来仍需要在这个研究方向上进行改进。