Jun, 2024
SpatialRGPT:视觉语言模型中的基于场景的空间推理
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model
An-Chieh Cheng, Hongxu Yin, Yang Fu, Qiushan Guo, Ruihan Yang...
TL;DR通过数据处理和深度信息集成,Spatial Region GPT (SpatialRGPT) 提升了 Vision Language Models (VLMs) 的空间感知和推理能力,并且在空间推理任务中显著提高了性能。