May, 2025
SpatialPrompting:基于关键帧的零-shot空间推理与现成的多模态大型语言模型
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with
Off-the-Shelf Multimodal Large Language Models
TL;DR本研究提出了SpatialPrompting,一个新框架,利用现成的多模态大型语言模型的推理能力,实现三维环境中的零-shot空间推理。该框架通过关键帧驱动的提示生成策略,有效地抽象出空间关系并推断复杂的三维结构,创造出一种灵活的空间推理新范式,并在多个基准数据集上实现了最先进的零-shot性能。