BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-image understanding
搜索结果 - 2
视觉与语言模型中的多图像理解基准测试:感知、知识、推理和多跳推理
通过引入多图像关系基准(MIRB),我们评估了视觉语言模型(VLMs)在比较、分析和推理多个图像时的能力,并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能,但在多图像推理任务中存在显著的性能差距。我们的发现表明,即使是最先进的
→
PDF
16 days ago
MuirBench: 强大多图像理解综合基准测试
MuirBench 是一个全面的基准测试,侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务(如场景理解,排序)组成,涉及 10 个多图像关系类别(如多视图关系,时间关系)。通过评估 20 种最新
→
PDF
21 days ago
Prev
Next