Jun, 2024

SpatialBot:基于视觉语言模型的精确空间理解

TL;DR通过为Vision Language Models提供RGB和深度图像,我们提出了SpatialBot来改进其对空间的理解能力,并构建了SpatialQA数据集用于训练深度理解,最后通过SpatialBench对其在不同层次上的空间理解能力进行综合评估,实验结果表明在SpatialQA数据集上训练的SpatialBot在空间理解方面取得了显著的改进。