实体机器人的视觉语义导航
本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人,并提出了使用子目标模型和领域随机化等方法,以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验,结果表明,在提前采集和注释了占用图和导航图的情况下,模拟 - to - 真实的转移成功率可达 46.8%,而完全没有先前信息的情况下,转移成功率仅有 22.5%。
Nov, 2020
在本文中,我们提出了一个在真实世界中解决 VLN 任务的新型导航框架,该框架利用强大的基础模型,并包括四个关键组成部分:(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器,(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器,(3) 基于语言索引的定位器,将每个宏操作描述重新映射到地图上的路径点位置,以及 (4) 基于 DD-PPO 的本地控制器,用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估,而无需进行任何细微调整,在真实世界中,我们的流程明显优于 SOTA VLN 基线。
Oct, 2023
通过模拟传递技术,赋予单目机器人全景遍历感知和全景语义理解,从而将高性能全景视觉 - 语言导航模型顺利应用于常见单目机器人,有效提高了机器人在实际环境中的导航性能。
Jun, 2024
本文提出了一种基于多智能体协作的视觉语义导航方法,通过分层决策框架、场景先验知识和通信机制,可以使多个机器人协同完成探索任务,并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。
Sep, 2021
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉 - 语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向,包括系统架构、基于方法的研究和常用基准数据集,全面分析了当前研究面临的问题和挑战,并探讨了该领域的未来发展方向,旨在为研究人员提供实用的参考。
Feb, 2024
Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.
Jun, 2024
该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义,并通过三个代理任务和一项辅助损失来教授模型实现该目的;实验表明这种能力使智能体的性能得到了提升,并且学习如何预测未来视图语义使智能体对于长路径的表现更好。
Apr, 2023
通过视觉和语言方法的应用,本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator,为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。
Nov, 2017
该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航(Robo-VLN)的设定,并利用分层决策,模块化训练和分离推理和模仿的策略,成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理,研究者展示了比现有基线效果更好的结果,为 Robo-VLN 创造了新的基准。
Apr, 2021
NaVid 是一个基于视频的大型视觉语言模型,通过动态的视频流输入,无需地图、测距仪和深度信息,实现了最先进水平的导航性能,解决了里程计噪声和模拟环境到真实环境之间的缺陷,同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景,通过对 550k 个导航样本和 665k 个网络数据的训练,在模拟环境和真实世界中取得了非常好的性能,为导航代理和整个研究领域规划了下一步。
Feb, 2024