Oct, 2023
增强多模态大型语言模型的空间感知能力
Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model
Yongqiang Zhao, Zhenyu Li, Zhi Jin, Feng Zhang, Haiyan Zhao...
TL;DR本文针对多模态大型语言模型(MLLM)在空间感知能力与人类需求之间存在的差距,提出使用更精确的物体间空间位置信息来引导 MLLM 以更准确地回答用户相关查询,并通过实验证明该方法在增强 MLLM 的空间感知任务和相关任务方面的有效性。