Jun, 2024

SpatialBot:基于视觉语言模型的精确空间理解

TL;DR通过为 Vision Language Models 提供 RGB 和深度图像,我们提出了 SpatialBot 来改进其对空间的理解能力,并构建了 SpatialQA 数据集用于训练深度理解,最后通过 SpatialBench 对其在不同层次上的空间理解能力进行综合评估,实验结果表明在 SpatialQA 数据集上训练的 SpatialBot 在空间理解方面取得了显著的改进。