Oct, 2023

增强多模态大型语言模型的空间感知能力

TL;DR本文针对多模态大型语言模型(MLLM)在空间感知能力与人类需求之间存在的差距,提出使用更精确的物体间空间位置信息来引导 MLLM 以更准确地回答用户相关查询,并通过实验证明该方法在增强 MLLM 的空间感知任务和相关任务方面的有效性。