VANP：自我监督视觉行动预训练导航中的视觉焦点学习

Mar, 2024

VANP：自我监督视觉行动预训练导航中的视觉焦点学习

VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training

Mohammad Nazeri, Junzhe Wang, Amirreza Payandeh, Xuesu Xiao

TL;DR提出了一种自我监督视觉行为模型（VANP）用于视觉导航的预训练，通过最大化嵌入之间的信息来学习与导航任务相关的特定视觉区域，实现了与完全监督模型相媲美的性能，同时减少了一半的训练时间和仅使用 0.08% 的 ImageNet 数据进行训练。

Abstract

Humans excel at efficiently navigating through crowds without collision by focusing on specific visual regions relevant to navigation. However, most robotic visual navigation methods rely on deep learning models

visual navigation robotic self-supervised learning vision-action model mutual information maximization

发现论文，激发创造

通过预训练实现通用的视觉语言导航智能体学习

本文提出了第一个预训练和微调范式，用于视觉语言导航 (VLN) 任务。通过自监督学习方式训练大量的图像 - 文本 - 动作三元组，预训练模型提供通用的视觉环境和语言指令表示，可以轻松地用于现有的 VLN 框架。通过在三个 VLN 任务上验证性能可行性，验证了该方法的有效性和推广性。

Feb, 2020

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

导航的视觉预训练：从噪声中我们能学到什么？

本文提出了一种基于自监督的方法，通过预测目标视图对于当前视图的裁剪位置和大小，学习得到足够的表示以训练一个有效的导航策略。该方法得到的模型具有较高的迁移性和数据效率。

Jun, 2022

MVP: 大规模机器人导航的统一运动和视觉自监督学习

提出了 MVP 方法，该方法利用视觉感知和优化运动估计数据相结合，通过强化学习实现无人驾驶车辆的自主导航，相较于传统的仅利用视觉进行导航的方法，MVP 在大尺度环境下具有更高的学习速度、准确性和稳健性，同时克服了 GPS 数据的可靠性问题。

Mar, 2020

基于提示的环境自主探索的视觉语言导航预训练

本文提出了一种基于 Prompt 的自我探索方法，通过对环境进行采样来自动生成结构化的指导，从而构建了一个无需人工标注的本地数据集，并引入基于 Prompt 的学习来提高语言嵌入的学习效率，进而大大提高了视觉 - 语言导航模型的泛化能力。

Mar, 2022

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

学习如何学习：利用元学习进行自适应视觉导航

本文探讨学习任务的连续性以及自适应性，并提出了一种元强化学习方法（SAVN），它能够在缺乏显式监督的情况下自适应地适应新环境，实验显示其在视觉导航中成功率和 SPL 指标上均有显著提高。

Dec, 2018

在逼真环境中学习视觉导航，无需任何监督

提出了一种无需外部监督或奖励的新方法，通过三个阶段，学习从图像输入进行导航：学习视角的良好表示，然后使用内存进行探索，最后通过设置自己的目标来学习导航。该模型仅使用内在奖励进行培训，因此适用于任何具有图像观察的环境。通过使用 RGB 输入训练代理在具有挑战性的 Gibson 数据集的逼真环境中导航的好处。

Apr, 2020

视觉 - 语言导航的掩蔽路径建模

本文提出了一种基于 Masked Path Modeling (MPM) 的预训练方法，通过让代理自主探索导航环境并收集其路径以及使用收集的数据进行训练，有效提高了视觉和语言导航代理在各种指令复杂度下的行动生成能力。

May, 2023

利用导航信息学习视觉表示

本研究旨在利用空间和时间的信息来改善自我监督学习，以提高分类性能。我们设计了一种流程来生成来自 ThreeDWorld 的自我视觉图像并记录相关的导航信息。修改动量对比（MoCo）模型，以代替实例区分进行预训练阶段中两个视图的相似性评估。结果显示，对比实例区分方法，本方法优于自我监督训练状态下的性能.

Feb, 2022