Jun, 2024
SpatialBot:基于视觉语言模型的精确空间理解
SpatialBot: Precise Spatial Understanding with Vision Language Models
Wenxiao Cai, Yaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang...
TL;DR通过为 Vision Language Models 提供 RGB 和深度图像,我们提出了 SpatialBot 来改进其对空间的理解能力,并构建了 SpatialQA 数据集用于训练深度理解,最后通过 SpatialBench 对其在不同层次上的空间理解能力进行综合评估,实验结果表明在 SpatialQA 数据集上训练的 SpatialBot 在空间理解方面取得了显著的改进。