Feb, 2024

令人惊讶的失败?多模态 LLMs 与 NLVR 挑战

TL;DR本研究评估了三种最先进的 MLLM 模型:GPT-4V,Gemini Pro 和开源模型 IDEFICS,在组合自然语言视觉推理任务 NLVR 上的表现。尽管这些模型表现出很强的性能,但我们观察到它们在 NLVR 上表现不佳,该任务要求组合和空间推理,并对语义和系统偏见具有鲁棒性。