OpenFMNav: 面向开放式、零样本物体导航的视觉语言基础模型
人类如何利用语义知识在陌生环境中导航并决定下一步探索的方式对于开发能够展现类似人类搜索行为的机器人来说至关重要。我们介绍了一种零样本导航方法,即视觉语言前沿地图(VLFM),其受人类推理的启发,并设计用于在新环境中驶向未见过语义对象。VLFM 根据深度观测建立占用地图,以识别前沿,并利用 RGB 观测和预训练的视觉语言模型生成基于语言的价值地图。然后,VLFM 使用该地图来识别探索最有希望的前沿,以寻找给定目标对象类别的实例。我们在 Gibson、Habitat-Matterport 3D(HM3D)和 Matterport 3D(MP3D)数据集的逼真环境中,在 Habitat 模拟器中评估了 VLFM。令人惊讶的是,VLFM 在对象目标导航任务的成功路径长度(SPL)方面,在所有三个数据集上都实现了最先进的结果。此外,我们还展示了 VLFM 的零样本特性使其能够轻松部署在现实世界的机器人上,如波士顿动力公司的 Spot 移动操作平台。我们在 Spot 上部署了 VLFM,并展示了它在现实世界的办公楼中高效导航到目标对象的能力,而无需任何对环境的先验知识。VLFM 的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。可以在 naoki.io/vlfm 上观看实际部署的视频。
Dec, 2023
提出一个名为 MO-VLN 的基准测试系统,用于测试机器人智能导航的效果和泛化能力。该系统包含三个逼真的 3D 场景,并涉及多个复杂的非常见物体,任务包括目标定位和高级指令追踪等。
Jun, 2023
我们提出了一种基于动作感知的零样本图像与语言导航(ZS-VLN)方法($A^2$Nav),通过利用基础模型的视觉和语言能力,将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务,然后学习一个由已收集到的具有不同特征的动作数据集构建的动作感知导航策略,以便按顺序执行这些子任务,从而实现导航指令的完整执行。实验证明,$A^2$Nav 在零样本图像与语言导航方面具有很好的性能,并且在 R2R-Habitat 和 RxR-Habitat 数据集上甚至超过了监督学习方法。
Aug, 2023
在家庭机器人领域,Zero-Shot Object Navigation 任务赋予了代理人在陌生环境中灵敏地穿越并定位来自新颖类别的物体而不需要事先明确训练。本文介绍了 VoroNav,一种新颖的语义探索框架,该框架提出了 Reduced Voronoi Graph 从实时构建的语义地图中提取探索路径和计划节点。通过利用拓扑和语义信息,VoroNav 设计基于文本的路径描述和图像,这些描述和图像可以被大型语言模型(LLM)轻松解释。我们的方法通过呈现路径和远视距描述的协同作用来表示环境背景,使 LLM 能够应用常识推理来确定导航的最佳航点。在 HM3D 和 HSSD 数据集上的广泛评估验证了 VoroNav 在成功率和探索效率(HM3D 上的成功率提高了 2.8%,SPL 提高了 3.7%,HSSD 上的成功率提高了 2.6%,SPL 提高了 3.8%)方面超过了现有的 Zero-Shot Object Navigation 基准。此外,引入了评估障碍物避免能力和感知效率的指标进一步证实了我们的方法在 Zero-Shot Object Navigation 规划中实现的改进。
Jan, 2024
我们对机器人的目标导航任务中应用的视觉语言前沿地图(VLFM)进行了优化研究。我们评估了各种视觉语言模型、目标检测器、分割模型以及多模态理解和视觉问答模块的效率和性能。在有限的 VRAM 桌面上,我们提出了一个解决方案,它在不丢失重要路径长度损失的情况下,比 VLFM BLIP-2 基线取得了更高的成功率(+1.55%),并且需要的视频内存减少了 2.3 倍。我们的研究结果揭示了在资源有限的环境中平衡模型性能和计算效率的洞见,并提出了有效的部署策略。
Jun, 2024
本文介绍 LOC-ZSON,一种用于复杂场景中物体导航任务的新颖语言驱动的面向物体的图像表示方法。我们提出了一种面向物体的图像表示和对应的损失函数,用于视觉语言模型(VLM)的微调,能够处理复杂的物体级别查询。此外,我们设计了一种基于 LLM 的增强和提示模板,以提高训练过程的稳定性和零样本推理的效果。我们在 Astro 机器人上实施了这种方法,并在模拟和现实世界环境中进行了零样本物体导航。我们展示了我们提出的方法在不同的基准设置下,在文本到图像检索任务中可以实现 1.38-13.38% 的改进。对于物体导航,我们展示了我们的方法在模拟和现实世界中的优势,分别取得了 5% 和 16.67% 的导航成功率的改进。
May, 2024
本文研究了零样本对象目标视觉导航任务,并提出了一种基于语义相似性网络的新型框架,用于在未训练过的类中引导机器人查找目标,通过在 AI2-THOR 平台上进行了广泛的实验,证明了我们模型的一般化能力强于基线模型。
Jun, 2022
Zero-Shot Object Navigation (ZSON) mainly focuses on following individual instructions to find generic object classes, while Zero-shot Interactive Personalized Object Navigation (ZIPON) introduces Open-woRld Interactive persOnalized Navigation (ORION) framework that uses Large Language Models (LLMs) to navigate to personalized goal objects while engaging in conversations with users, showing significant improvement with interactive agents that can leverage user feedback, but the balance between task completion and the efficiency of navigation and interaction remains challenging.
Oct, 2023
本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集,并通过预训练的语言模型对数据集进行微调,从而解决 VLN 方法中的数据稀缺性问题,从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能,取得了良好效果。
Aug, 2022
本研究提出了一种自适应框架,通过有效结合冻结的视觉语言模型和现成大型语言模型,在没有使用任何附加训练或微调的情况下,开展视频概念推理任务。在各种视频动作数据集上的实验结果表明,与传统的视觉语言模型相比,该框架在开放式和闭合式情景下在目标推理方面表现出更高的性能。值得注意的是,所提出的框架在行动识别任务中能够有效推广,凸显了它在推动基于视频的零样本理解方面的多样性和潜在贡献。
Jan, 2024