基于障碍地图的物体导航的两阶段深度增强学习

Jun, 2024

基于障碍地图的物体导航的两阶段深度增强学习

Two-Stage Depth Enhanced Learning with Obstacle Map For Object Navigation

Yanwei Zheng, Shaopu Feng, Bowen Huang, Changrui Li, Xiao Zhang...

TL;DR通过使用 RGB 和深度信息进行预训练以及在两阶段奖励训练下输出导航动作，本研究在视觉物体导航中显著提高了成功率和导航效率。

Abstract

The task that requires an agent to navigate to a given object through only visual observation is called visual object navigation (VON). The main bottlenecks of VON are strategies exploration and →

visual object navigation strategies exploration prior knowledge exploitation rgb and depth information navigation efficiency

发现论文，激发创造

利用场景特定特征进行物体目标导航

本文研究了在复杂的家庭环境中，物体和房间之间的内在关系是否有助于视觉导航任务中的智能体。我们通过一个新的降低训练难度的数据集提出了一种基于关注力机制的模型，该模型可以定量地利用场景和物体之间的相关性，从而能够实现导航模型的快速训练和更好的性能。

Aug, 2020

MultiON: 使用多对象导航基准测试语义地图记忆

本文探讨了在三维环境中进行导航任务的挑战以及地图类记忆对导航任务的影响，提出了新的 MultiON 任务，通过一系列实验考察了不同复杂度任务下代理模型的表现，发现简单语义地图代理的表现相对更优，但神经图像特征地图代理和 oracle 地图代理也存在局限性，可能需要进一步的训练和研究。

Dec, 2020

减量化、再利用、回收利用：模块化多物体导航

本文研究了多目标导航任务，通过四个模块（物体检测、语义地图构建、环境探索和导航）来解决此任务。结果表明，在 MultiON 任务中，采用 PointGoal 导航模型优于从头开始学习导航。与分析路径规划相比，基于 Agent 的导航模块表现更好。同时也探讨了探索策略并发现随机探索策略显著优于更高级的探索方法。我们还创建了 MultiON 2.0 数据集作为我们方法的测试平台。

Apr, 2023

通过指导提升结构化探索实现物体导航

本文提出了一种层次化学习方法，包括高层的规划和记忆以及低层的房间导航和物品寻找，通过简单的合成语言为代理提供指令，同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。

Nov, 2022

通过同时探索和识别实现 3D 感知的物体目标导航

本文提出了一种基于二个子策略的框架，即角落导向探索策略和类别感知识别策略，用于提高基于 3D 场景表示的目标导航能力，从而大大改善 ObjectNav 的性能，并在 Matterport3D 和 Gibson 数据集上实现最佳表现，同时训练时的计算成本较其他模块化方法降低了 (高达 30 倍)。

Dec, 2022

具备场景先验知识的多智能体具身视觉语义导航

本文提出了一种基于多智能体协作的视觉语义导航方法，通过分层决策框架、场景先验知识和通信机制，可以使多个机器人协同完成探索任务，并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。

Sep, 2021

在真实环境中使用混合策略进行多目标导航

我们提出了一种混合导航方法，将多对象导航（Multi-ON）任务分解为两个不同的技能：（1）使用经典 SLAM 和符号规划器处理航路点导航，而（2）使用结合监督学习和强化学习训练的深度神经网络处理探索、语义建图和目标检索，我们展示了该方法在模拟和真实环境中相对于端到端方法的优势，并超越了该任务的最先进技术。

Jan, 2024

Meta-Explore：使用场景对象频谱基础的探索性分层视觉语言导航

提出了 Meta-Explore 方法，该方法使用一种基于 2D 傅立叶变换的新型视觉表示方法 - 场景对象谱，结合了一种利用未探索状态的利用策略，以及带有语义信息的后悔探索方法，从而可以更好地解决 VLN 中跟随自然语言指令进行导航的问题，并在三个 VLN 基准测试中，Meta-Explore 相对于其他基线模型表现出更好的性能。

Mar, 2023

寻找您所需的：为需求驱动导航学习需求条件的物体属性空间

通过 Contrastive Language-Image Pre-training（CLIP）基于视觉属性特征，我们提出了一种 Demand-driven Navigation（DDN）方法，以满足用户对指定需求的物体的导航要求，并在 AI2Thor 的 ProcThor 数据集上展示了其比常见的 VON 基准方法更好的导航性能。

Sep, 2023

递归隐式地图的目标导航

我们在这篇论文中提出了一种隐式空间地图的目标导航方法，使用 transformer 递归更新隐式地图，并通过辅助任务训练模型，以重构显式地图、预测视觉特征、语义标签和动作。我们的方法在挑战性的 MP3D 数据集上显著优于最先进方法，并且在 HM3D 数据集上具有良好的泛化能力。我们成功地在真实机器人上部署了模型，并在真实场景中只使用了几个真实世界的演示来实现令人鼓舞的目标导航结果。

Aug, 2023