使用场景先验知识的视觉语义导航

Oct, 2018

使用场景先验知识的视觉语义导航

Visual Semantic Navigation using Scene Priors

Wei Yang, Xiaolong Wang, Ali Farhadi, Abhinav Gupta, Roozbeh Mottaghi

TL;DR本文通过使用图卷积网络和深度强化学习框架将语义先验知识纳入到语义导航的任务中，证明语义知识如何显著提高性能并改善对未知场景和 / 或对象的泛化能力。

Abstract

How do humans navigate to target objects in novel scenes? Do we use the semantic/functional priors we have built over years to efficiently search and navigate? For example, to search for mugs, we search cabinets near the coffee machine and for fruits we try the fridge. In this work, we focus on incorporating →

semantic priors graph convolutional networks deep reinforcement learning semantic navigation generalization

发现论文，激发创造

具备场景先验知识的多智能体具身视觉语义导航

本文提出了一种基于多智能体协作的视觉语义导航方法，通过分层决策框架、场景先验知识和通信机制，可以使多个机器人协同完成探索任务，并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。

Sep, 2021

主动语义目标导航的映射学习

本文提出了一种通过主动学习生成语义地图的框架，在未知环境下实现目标物体导航，通过在未观察区域内的语义类别的不确定性进行决策，实现了对场景中语义优先级的学习，并在 Matterport3D 数据库上验证了改进的导航效果。

Jun, 2021

利用丰富语义表示的面向对象的视觉导航目标

利用丰富的语义表示和基于目标的对象训练机器人进行视觉导航，证明该方法可以在短时间内使机器人对新的目标和未见过的场景进行泛化。

Nov, 2018

面向语义目标驱动导航的视觉表征

本研究主要探讨了如何在复杂环境下使用语义视觉导航技术，通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策，并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。

May, 2018

利用图像先验提高场景理解能力

提出了一种简单而有效的方法，通过利用与自动驾驶相关的时序数据的图像先验来改善语义分割准确性，该方法采用先验融合网络来学习先前图像的特征，最终将具体应用于提高场景理解。

Oct, 2019

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

零样本实例导航的优先语义学习

我们提出了一种优先语义学习（PSL）方法，通过引入语义增强的 PSL 代理和优先语义训练策略来提高导航代理的语义理解能力，并设计了语义扩展推理方案以保持与训练相同的目标语义粒度级别。此外，针对流行的 HM3D 环境，我们提出了一个实例导航（InstanceNav）任务，需要根据详细描述前往特定的对象实例，与仅通过目标类别定义目标的对象导航（ObjectNav）任务不同。我们的 PSL 代理在零样本 ObjectNav 的成功率上超过了先前的最优结果 66％，并且在新的 InstanceNav 任务上也表现优越。代码将在此 https 网址上发布：science/r/PSL/。

Mar, 2024

神经拓扑 SLAM 用于视觉导航

本文研究图像目标导航问题，提出了一种基于拓扑表示法、语义特征和监督学习算法的解决方案，在视觉和物理仿真实验中部署该算法，与现有方法相比，在长时间任务中呈现出 50％以上的相对提高。

May, 2020

空间注意力视觉导航

本研究对物体目标视觉导航进行了研究，旨在通过强化学习算法学习智能体的策略。我们提出了一种新的注意概率模型来改进代理策略，并在常用数据集上取得了最先进的结果。

Apr, 2021

通过观看 YouTube 视频进行语义视觉导航

本文通过简单地观看 YouTube 视频，利用 Q-learning 对伪标记过的转移数据进行离线学习来获取语义线索，进而在视觉仿真中实现目标导航任务，相较于端到端 RL、行为克隆和传统方法，使用最少的直接交互能够获得相对提高 15-83% 的效率。

Jun, 2020