通过观看 YouTube 视频进行语义视觉导航
通过利用大规模的房屋导览视频数据集,本文提出了一种视觉语言导航方法,使用自动构建的路径指令对训练的代理进行预训练,并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明,该方法在两个流行的基准测试(R2R 和 REVERIE)上取得了最先进的性能。
Jul, 2023
本文提出了一种通过主动学习生成语义地图的框架,在未知环境下实现目标物体导航,通过在未观察区域内的语义类别的不确定性进行决策,实现了对场景中语义优先级的学习,并在 Matterport3D 数据库上验证了改进的导航效果。
Jun, 2021
通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。
May, 2016
本文提出了基于强化学习的标记策略,从嘈杂的网络搜索结果中选择正确的样本来训练分类器,以学习准确的视觉概念分类器。实验结果表明,我们的方法能够学习嘈杂数据的良好标记策略,并用此学习精确的视觉概念分类器。
Jun, 2017
本研究主要探讨了如何在复杂环境下使用语义视觉导航技术,通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策,并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。
May, 2018
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
本研究提出了一种采用新型模块化迁移学习模型的视觉导航统一方法。该模型可以有效地利用从一个源任务积累的经验并将其应用于多个目标任务(例如,ObjectNav、RoomNav、ViewNav)以及具有各种目标模态(例如,图像、草图、音频、标签)的目标任务,同时实现了零点经验学习,这让模型可以在不接收任何任务特定的交互式训练的情况下解决目标任务。实验结果表明,与现有最优算法相比,我们的方法可以更快地学习,实现更好的泛化,并获得了明显的性能优势。
Feb, 2022
该研究使用深度强化学习方法,通过增量构建语义地图和选择长期目标来实现目标导航,并通过数据增强和 Q 函数正则化等方法明显提高了模型性能。
Aug, 2022