基于视觉语言模型的端到端导航：将空间推理转化为问答

Nov, 2024

基于视觉语言模型的端到端导航：将空间推理转化为问答

End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering

Dylan Goetting, Himanshu Gaurav Singh, Antonio Loquercio

TL;DR本研究针对传统导航方法中感知、规划和控制之间的隔离问题，提出了VLMnav，一个通过视觉语言模型(VLM)直接选择动作的端到端导航框架。研究发现，VLM在无需微调或导航数据的情况下，能够作为零样本策略应用，大大提高了方法的开放性和可推广性。

Abstract

We present VLMnav, an embodied framework to transform a Vision-Language Model (VLM) into an End-to-End Navigation policy. In contrast to prior work, we do not rely on a separation between perception, planning, an