基于技能的视觉物体导航的交互式语义地图表示

Nov, 2023

基于技能的视觉物体导航的交互式语义地图表示

Interactive Semantic Map Representation for Skill-based Visual Object Navigation

Tatiana Zemskova, Aleksei Staroverov, Kirill Muravyev, Dmitry Yudin, Aleksandr Panov

TL;DR使用学习方法的视觉对象导航是移动机器人的关键任务之一，本文介绍了一种在与室内环境进行混合体互动过程中形成的场景语义地图的新表示方法，该方法基于神经网络通过反向或正向图像序列上的预测融合损失值的反向传播来调整分割模型的权重。我们将此表示方法实现到一种名为 SkillTron 的完整导航方法中，该方法可以根据强化学习和基于地图的经典规划方法从端到端策略中选择机器人技能。所提出的方法能够为机器人探索制定中间目标和对象导航制定最终目标，我们在 Habitat 环境中对所提出的方法进行了大量实验，在导航质量指标方面表现出明显的优势，与现有技术方法相比。所开发的代码和使用的自定义数据集可以在 github.com/AIRI-Institute/skill-fusion 上公开获取。

Abstract

visual object navigation using learning methods is one of the key tasks in mobile robotics. This paper introduces a new representation of a scene semantic map formed during the embodied agent interaction with the

visual object navigation learning methods scene semantic map neural network reinforcement learning

发现论文，激发创造

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

面向语义目标驱动导航的视觉表征

本研究主要探讨了如何在复杂环境下使用语义视觉导航技术，通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策，并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。

May, 2018

在室内环境中进行高层语义区域划分而无需物体识别

通过室内环境中的具身导航，提出了一种语义区域绘图的方法，通过视觉 - 语言模型向导绘图，将自身场景理解映射到全局框架上，生成具有高级代理知识的语义地图，实现自主地图生成。在逼真模拟器的实验中，该方法在大量基线方法中明显优于基于对象的系统和预训练场景分类器。

Mar, 2024

具备场景先验知识的多智能体具身视觉语义导航

本文提出了一种基于多智能体协作的视觉语义导航方法，通过分层决策框架、场景先验知识和通信机制，可以使多个机器人协同完成探索任务，并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。

Sep, 2021

主动语义目标导航的映射学习

本文提出了一种通过主动学习生成语义地图的框架，在未知环境下实现目标物体导航，通过在未观察区域内的语义类别的不确定性进行决策，实现了对场景中语义优先级的学习，并在 Matterport3D 数据库上验证了改进的导航效果。

Jun, 2021

基于语义地图的导航指令生成

我们提出了一种使用语义地图作为视觉输入的图像字幕任务的导航指令生成新方法，并发布了使用语义地图的指令生成基准数据集和初步模型。

Mar, 2024

基于语义和 RGB 自我视角的目标导航

本文提出了一种使用语义决策使得服务机器人在室内环境中进行导航的架构和方法，使用 GeoSem 映射和以 RGB 为自我视角的相机感知。该方法通过考虑机器人的能动性和场景、物体及其关系的语义表示来指导机器人导航，实验结果表明该方法在游戏化评估中的平均完成时间上优于人类用户。

Oct, 2022

MultiON: 使用多对象导航基准测试语义地图记忆

本文探讨了在三维环境中进行导航任务的挑战以及地图类记忆对导航任务的影响，提出了新的 MultiON 任务，通过一系列实验考察了不同复杂度任务下代理模型的表现，发现简单语义地图代理的表现相对更优，但神经图像特征地图代理和 oracle 地图代理也存在局限性，可能需要进一步的训练和研究。

Dec, 2020

不训练你的龙：利用语义前沿进行无需训练的物体目标导航

该篇论文介绍了一种模块化的训练免费方案，利用经典的 V-SLAM 框架构建结构化场景表示，并注入语义和统计信息，通过感知物体类别和语义信息指导智能体进行探索和导航任务。

May, 2023

在真实环境中使用混合策略进行多目标导航

我们提出了一种混合导航方法，将多对象导航（Multi-ON）任务分解为两个不同的技能：（1）使用经典 SLAM 和符号规划器处理航路点导航，而（2）使用结合监督学习和强化学习训练的深度神经网络处理探索、语义建图和目标检索，我们展示了该方法在模拟和真实环境中相对于端到端方法的优势，并超越了该任务的最先进技术。

Jan, 2024