Nov, 2024
基于视觉语言模型的端到端导航:将空间推理转化为问答
End-to-End Navigation with Vision Language Models: Transforming Spatial
Reasoning into Question-Answering
TL;DR本研究针对传统导航方法中感知、规划和控制之间的隔离问题,提出了VLMnav,一个通过视觉语言模型(VLM)直接选择动作的端到端导航框架。研究发现,VLM在无需微调或导航数据的情况下,能够作为零样本策略应用,大大提高了方法的开放性和可推广性。