BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-image relational benchmark
搜索结果 - 1
视觉与语言模型中的多图像理解基准测试:感知、知识、推理和多跳推理
通过引入多图像关系基准(MIRB),我们评估了视觉语言模型(VLMs)在比较、分析和推理多个图像时的能力,并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能,但在多图像推理任务中存在显著的性能差距。我们的发现表明,即使是最先进的
→
PDF
16 days ago
Prev
Next