视觉导航的认知映射与规划

CVPRFeb, 2017

Cognitive Mapping and Planning for Visual Navigation

Saurabh Gupta, Varun Tolani, James Davidson, Sergey Levine, Rahul Sukthankar...

TL;DR提出一种学习从第一人称视角中建图并规划行动序列实现导航的神经网络架构，并应用于仿真和物理机器人环境中，取得了比其他基于学习或传统映射和路径规划方法更好的性能，能够扩展到语义化的目标。

Abstract

We introduce a neural architecture for navigation in novel environments. Our proposed architecture learns to map from first-person views and plans a sequence of actions towards goals in the →

neural architecture navigation mapping planning environment

发现论文，激发创造

在模糊环境中整合认知地图学习与主动推理的规划

本文提出了一种将统计模型的认知地图形成与支持不确定性规划的主动推理代理进行集成的方法，并通过在三个空间导航场景中比较原始克隆图代理和主动推理驱动的克隆图代理，证明了尽管两种代理在简单场景中都有效，但主动推理代理在具有关于位置的模糊信息的挑战性场景中的规划更有效。

Aug, 2023

统一地图和基于地标的视觉导航表示

提出了一种视觉导航的公式，该公式将基于地图的空间推理和路径规划与基于地标的稳健计划执行融合，该公式基于数据学习，能够高效地导航在新颖环境中，针对模拟现实世界环境进行了测试并报告了竞争基线方法的性能提高。

Dec, 2017

语言模型的认知地图：通过动词表示世界模型的最优规划

本文研究了语言模型的最佳规划能力，可以构建给定环境的认知地图，实验证明认知地图显著提高了网格世界路径规划任务中的规划生成能力，同时展示了与人类认知类似的两个关键特征：将规划能力泛化到外推环境和有限训练数据下的快速适应。希望本研究结果能够为基于语言模型的模拟人类认知流程提供启示，从而开发出更先进、更健壮的系统，更好地模拟人类思维。

Jun, 2024

MemoNav: 视觉导航的工作记忆模型

MemoNav 是一种新型的内存模型，利用工作内存类似的流水线来提高图像目标导航的性能，通过三种类型的导航内存以及场景特征的学习和利用，使得代理能够学习并利用与目标相关的场景特征在拓扑图中进行高效导航，实验证明 MemoNav 在吉布森和 Matterport3D 场景的多目标任务中显著优于先前的方法，定性结果进一步说明 MemoNav 规划更高效的路径。

Feb, 2024

虚拟环境的自动映射与视觉预测编码

预测编码为构建认知地图的统一算法框架，并能通过视觉信息定位环境中的位置。

Aug, 2023

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

机器人导航和环境拟态映射的仿生基于脉冲的海马体和后顶叶皮层模型

本文介绍了受生物启发的海马记忆模型与后部顶叶皮质模型相连的基于脉冲的机器人导航和环境伪地图系统，使用脉冲神经网络在 SpiNNaker 硬件平台上实现，并在实验中演示了其正确操作并能够避开障碍物并映射该环境。这是一个动态学习的环境伪映射系统的首次实施。

May, 2023

神经拓扑 SLAM 用于视觉导航

本文研究图像目标导航问题，提出了一种基于拓扑表示法、语义特征和监督学习算法的解决方案，在视觉和物理仿真实验中部署该算法，与现有方法相比，在长时间任务中呈现出 50％以上的相对提高。

May, 2020

通过跨模态记忆进行视觉 - 对话导航

本文提出了一种跨模态记忆网络（CMN），通过两个记忆模块（L-mem 和 V-mem）协同学习，实现了历史导航决策的探索，有效地解决了视觉对话导航中的语言意图处理问题，并在 CVDN 数据集上取得了显著的性能提升。

Mar, 2020