利用导航信息学习视觉表示

Feb, 2022

Using Navigational Information to Learn Visual Representations

Lizhen Zhu, Brad Wyble, James Z. Wang

TL;DR本研究旨在利用空间和时间的信息来改善自我监督学习，以提高分类性能。我们设计了一种流程来生成来自 ThreeDWorld 的自我视觉图像并记录相关的导航信息。修改动量对比（MoCo）模型，以代替实例区分进行预训练阶段中两个视图的相似性评估。结果显示，对比实例区分方法，本方法优于自我监督训练状态下的性能.

Abstract

Children learn to build a visual representation of the world from unsupervised exploration and we hypothesize that a key part of this learning ability is the use of self-generated navigational information as a similarity label to drive a learning objective for →

visual representation self-supervised learning contrastive learning egocentric-vision images contextual information

发现论文，激发创造

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

基于上下文的自监督视觉学习：利用环境作为数据来源

环境空间相似性方法（ESS）是一种独特的方法，通过在特定上下文中对自身进行勘探和跟踪，从而使智能体通过对其位置在连贯环境中的追踪来获取技能，ESS 方法在构造对比式学习中提供了历史空间上下文的相似性信号，并通过在模拟的逼真环境中使用图像作为实验设置来展示其优越性，特别是在陌生环境中能够在房间分类和空间预测任务中显示出非凡的熟练度，从机器人到太空探索等领域都有潜在的转变应用。

Jan, 2024

导航的视觉预训练：从噪声中我们能学到什么？

本文提出了一种基于自监督的方法，通过预测目标视图对于当前视图的裁剪位置和大小，学习得到足够的表示以训练一个有效的导航策略。该方法得到的模型具有较高的迁移性和数据效率。

Jun, 2022

在逼真环境中学习视觉导航，无需任何监督

提出了一种无需外部监督或奖励的新方法，通过三个阶段，学习从图像输入进行导航：学习视角的良好表示，然后使用内存进行探索，最后通过设置自己的目标来学习导航。该模型仅使用内在奖励进行培训，因此适用于任何具有图像观察的环境。通过使用 RGB 输入训练代理在具有挑战性的 Gibson 数据集的逼真环境中导航的好处。

Apr, 2020

示范对比学习

该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架，优化了最近提出的自监督学习算法，应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息，验证了所提出的方法在模拟几种机器人任务，包括 pick and place 任务中的应用，评估了学习表示的三个指标：视点对齐，阶段分类和强化学习，在所有情况下，结果都表明与现有方法相比，该方法水平更高，而且训练轮数更少。

Jan, 2022

CSP：自监督对比空间预训练用于地理空间视觉表示

本研究提出了一种基于自监督学习的框架 Contrastive Spatial Pre-Training（CSP），用于处理大量具有地理标记信息的图像，通过对地理信息进行编码和对比学习，可以提高模型在图像分类任务中的性能。

May, 2023

学习如何学习：利用元学习进行自适应视觉导航

本文探讨学习任务的连续性以及自适应性，并提出了一种元强化学习方法（SAVN），它能够在缺乏显式监督的情况下自适应地适应新环境，实验显示其在视觉导航中成功率和 SPL 指标上均有显著提高。

Dec, 2018

面向语义目标驱动导航的视觉表征

本研究主要探讨了如何在复杂环境下使用语义视觉导航技术，通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策，并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。

May, 2018

VANP：自我监督视觉行动预训练导航中的视觉焦点学习

提出了一种自我监督视觉行为模型（VANP）用于视觉导航的预训练，通过最大化嵌入之间的信息来学习与导航任务相关的特定视觉区域，实现了与完全监督模型相媲美的性能，同时减少了一半的训练时间和仅使用 0.08% 的 ImageNet 数据进行训练。

Mar, 2024

学习利用元强化学习抽象视觉动作映射

通过研究人类获取新技能所需的多个视觉运动映射的能力，我们发现上下文提示作为不同的 “网格世界” 实施时，能够更高效地让参与者学习两个不同的关键映射。结果表明，当提供上下文信息时，任务表现显著提高，这适用于不同的元强化学习代理程序，无论它们在执行任务时是否接收上下文信息。我们评估了它们在预测人类任务表现方面的准确性，并分析了它们的内部表示。结果表明，上下文提示使得在使用不同的视觉运动映射时能够在空间和时间上形成独立的表示，而在缺乏上下文提示时则更倾向于共享一个表示。虽然这两种策略都可以允许学习多个视觉运动映射，但我们展示了上下文提示在可以学习多少个映射方面提供了计算优势。

Feb, 2024