Jan, 2024

SpatialVLM:赋予视觉语言模型空间推理能力

TL;DR通过在互联网规模的空间推理数据上训练 Visual Language Model(VLM),我们显著增强了其在定量和定性空间 VQA 方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。