基于层次化对象到区域图的对象导航
本研究致力于解决机器人在三维物体场景中远距离导航的问题,通过引入一种新的基于图反向传播的算法提高了导航的准确性并在包括 objective ambiguity 的复杂环境中进行了测试。
Mar, 2021
在家庭机器人领域,Zero-Shot Object Navigation 任务赋予了代理人在陌生环境中灵敏地穿越并定位来自新颖类别的物体而不需要事先明确训练。本文介绍了 VoroNav,一种新颖的语义探索框架,该框架提出了 Reduced Voronoi Graph 从实时构建的语义地图中提取探索路径和计划节点。通过利用拓扑和语义信息,VoroNav 设计基于文本的路径描述和图像,这些描述和图像可以被大型语言模型(LLM)轻松解释。我们的方法通过呈现路径和远视距描述的协同作用来表示环境背景,使 LLM 能够应用常识推理来确定导航的最佳航点。在 HM3D 和 HSSD 数据集上的广泛评估验证了 VoroNav 在成功率和探索效率(HM3D 上的成功率提高了 2.8%,SPL 提高了 3.7%,HSSD 上的成功率提高了 2.6%,SPL 提高了 3.8%)方面超过了现有的 Zero-Shot Object Navigation 基准。此外,引入了评估障碍物避免能力和感知效率的指标进一步证实了我们的方法在 Zero-Shot Object Navigation 规划中实现的改进。
Jan, 2024
本研究致力于解决大规模环境下对象层次之外的抽象查询对于基于语言引导的机器人导航的难题,通过构建一个层次化的开放词汇三维场景图映射方法(HOV-SG),将先进的开放词汇分割级别地图与自由导航相结合,并在覆盖面积上实现了大小的减少,并且在物体、房间和楼层级别上产生了超过之前基线的开放词汇语义准确度。
Mar, 2024
本文提出了一种层次化学习方法,包括高层的规划和记忆以及低层的房间导航和物品寻找,通过简单的合成语言为代理提供指令,同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。
Nov, 2022
我们在这篇论文中提出了一种隐式空间地图的目标导航方法,使用 transformer 递归更新隐式地图,并通过辅助任务训练模型,以重构显式地图、预测视觉特征、语义标签和动作。我们的方法在挑战性的 MP3D 数据集上显著优于最先进方法,并且在 HM3D 数据集上具有良好的泛化能力。我们成功地在真实机器人上部署了模型,并在真实场景中只使用了几个真实世界的演示来实现令人鼓舞的目标导航结果。
Aug, 2023
Zero-Shot Object Navigation (ZSON) mainly focuses on following individual instructions to find generic object classes, while Zero-shot Interactive Personalized Object Navigation (ZIPON) introduces Open-woRld Interactive persOnalized Navigation (ORION) framework that uses Large Language Models (LLMs) to navigate to personalized goal objects while engaging in conversations with users, showing significant improvement with interactive agents that can leverage user feedback, but the balance between task completion and the efficiency of navigation and interaction remains challenging.
Oct, 2023
本文研究了零样本对象目标视觉导航任务,并提出了一种基于语义相似性网络的新型框架,用于在未训练过的类中引导机器人查找目标,通过在 AI2-THOR 平台上进行了广泛的实验,证明了我们模型的一般化能力强于基线模型。
Jun, 2022
我们提出了一种基于视觉的分层规划算法,利用神经符号任务规划和基于低级运动产生的联合框架,以指定目标为条件。该算法使用两级场景图形式来表示操作场景,即几何场景图和符号场景图,并使用图形神经网络来为高层任务规划和低层动作生成处理这些场景图。我们在物理模拟和现实世界中的厨房储物任务中验证了我们的方法,并证明我们的方法比标准的搜索任务和运动规划器运行速度高四个数量级。
Dec, 2020
本文提出了一种基于二个子策略的框架,即 角落导向探索策略 和 类别感知识别策略,用于提高基于 3D 场景表示的目标导航能力,从而大大改善 ObjectNav 的性能,并在 Matterport3D 和 Gibson 数据集上实现最佳表现,同时训练时的计算成本较其他模块化方法降低了 (高达 30 倍)。
Dec, 2022