Jun, 2024

GSR-BENCH: 通过多模态的 LLM 评估接地式空间推理的基准

TL;DR这篇研究报告通过扩展 What'sUp 数据集,提出了一个全面的评估方法用于空间关系理解,并对 27 种不同模型的性能进行了评估,其中包括早期的视觉语言模型(VLMs)和三类多模态语言模型(MLLMs),以验证其在任务中的表现和研究其规模的变化规律。