通过观看 YouTube 视频进行语义视觉导航

Jun, 2020

通过观看 YouTube 视频进行语义视觉导航

Semantic Visual Navigation by Watching YouTube Videos

Matthew Chang, Arjun Gupta, Saurabh Gupta

TL;DR本文通过简单地观看 YouTube 视频，利用 Q-learning 对伪标记过的转移数据进行离线学习来获取语义线索，进而在视觉仿真中实现目标导航任务，相较于端到端 RL、行为克隆和传统方法，使用最少的直接交互能够获得相对提高 15-83% 的效率。

Abstract

semantic cues and statistical regularities in real-world environment layouts can improve efficiency for navigation in novel environments. This paper learns and leverages such →

semantic cues navigation youtube videos q-learning object-goal task

发现论文，激发创造

从 YouTube 视频中学习视觉与语言导航

通过利用大规模的房屋导览视频数据集，本文提出了一种视觉语言导航方法，使用自动构建的路径指令对训练的代理进行预训练，并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明，该方法在两个流行的基准测试（R2R 和 REVERIE）上取得了最先进的性能。

Jul, 2023

主动语义目标导航的映射学习

本文提出了一种通过主动学习生成语义地图的框架，在未知环境下实现目标物体导航，通过在未观察区域内的语义类别的不确定性进行决策，实现了对场景中语义优先级的学习，并在 Matterport3D 数据库上验证了改进的导航效果。

Jun, 2021

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

从嘈杂的网络视频中学习如何学习

本文提出了基于强化学习的标记策略，从嘈杂的网络搜索结果中选择正确的样本来训练分类器，以学习准确的视觉概念分类器。实验结果表明，我们的方法能够学习嘈杂数据的良好标记策略，并用此学习精确的视觉概念分类器。

Jun, 2017

面向语义目标驱动导航的视觉表征

本研究主要探讨了如何在复杂环境下使用语义视觉导航技术，通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策，并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。

May, 2018

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

利用丰富语义表示的面向对象的视觉导航目标

利用丰富的语义表示和基于目标的对象训练机器人进行视觉导航，证明该方法可以在短时间内使机器人对新的目标和未见过的场景进行泛化。

Nov, 2018

零经验要求：语义视觉导航的即插即用模块化迁移学习

本研究提出了一种采用新型模块化迁移学习模型的视觉导航统一方法。该模型可以有效地利用从一个源任务积累的经验并将其应用于多个目标任务（例如，ObjectNav、RoomNav、ViewNav）以及具有各种目标模态（例如，图像、草图、音频、标签）的目标任务，同时实现了零点经验学习，这让模型可以在不接收任何任务特定的交互式训练的情况下解决目标任务。实验结果表明，与现有最优算法相比，我们的方法可以更快地学习，实现更好的泛化，并获得了明显的性能优势。

Feb, 2022

使用场景先验知识的视觉语义导航

本文通过使用图卷积网络和深度强化学习框架将语义先验知识纳入到语义导航的任务中，证明语义知识如何显著提高性能并改善对未知场景和 / 或对象的泛化能力。

Oct, 2018

使用数据正则化 Q-Learning 进行目标导航

该研究使用深度强化学习方法，通过增量构建语义地图和选择长期目标来实现目标导航，并通过数据增强和 Q 函数正则化等方法明显提高了模型性能。

Aug, 2022