学习如何学习:利用元学习进行自适应视觉导航
本文提出 Reinforced Cross-Modal Matching 和 Self-Supervised Imitation Learning 两个方法来解决语视导航中的跨模态匹配、学习反馈以及泛化问题,并通过实验证明这两种方法较之前的方法显著提高了成功率和准确度。
Nov, 2018
提出了一种无需外部监督或奖励的新方法,通过三个阶段,学习从图像输入进行导航:学习视角的良好表示,然后使用内存进行探索,最后通过设置自己的目标来学习导航。该模型仅使用内在奖励进行培训,因此适用于任何具有图像观察的环境。通过使用 RGB 输入训练代理在具有挑战性的 Gibson 数据集的逼真环境中导航的好处。
Apr, 2020
本研究提出了一种采用新型模块化迁移学习模型的视觉导航统一方法。该模型可以有效地利用从一个源任务积累的经验并将其应用于多个目标任务(例如,ObjectNav、RoomNav、ViewNav)以及具有各种目标模态(例如,图像、草图、音频、标签)的目标任务,同时实现了零点经验学习,这让模型可以在不接收任何任务特定的交互式训练的情况下解决目标任务。实验结果表明,与现有最优算法相比,我们的方法可以更快地学习,实现更好的泛化,并获得了明显的性能优势。
Feb, 2022
提出了一种自我监督视觉行为模型(VANP)用于视觉导航的预训练,通过最大化嵌入之间的信息来学习与导航任务相关的特定视觉区域,实现了与完全监督模型相媲美的性能,同时减少了一半的训练时间和仅使用 0.08% 的 ImageNet 数据进行训练。
Mar, 2024
通过返朔目标重新标注和自我模仿,本研究在视觉导航任务中提出一种新颖的方法,Visual Hindsight Self-Imitation Learning (VHS),以提高样本利用效率,并通过已有的目标观察衍生出原型目标嵌入方法,在视觉和部分可观察的环境下表现出显著有效性。实验结果证实了 VHS 在交互式视觉导航任务中优越的性能和样本利用效率。
Dec, 2023
本研究旨在利用空间和时间的信息来改善自我监督学习,以提高分类性能。我们设计了一种流程来生成来自 ThreeDWorld 的自我视觉图像并记录相关的导航信息。修改动量对比(MoCo)模型,以代替实例区分进行预训练阶段中两个视图的相似性评估。结果显示,对比实例区分方法,本方法优于自我监督训练状态下的性能.
Feb, 2022
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
通过研究人类获取新技能所需的多个视觉运动映射的能力,我们发现上下文提示作为不同的 “网格世界” 实施时,能够更高效地让参与者学习两个不同的关键映射。结果表明,当提供上下文信息时,任务表现显著提高,这适用于不同的元强化学习代理程序,无论它们在执行任务时是否接收上下文信息。我们评估了它们在预测人类任务表现方面的准确性,并分析了它们的内部表示。结果表明,上下文提示使得在使用不同的视觉运动映射时能够在空间和时间上形成独立的表示,而在缺乏上下文提示时则更倾向于共享一个表示。虽然这两种策略都可以允许学习多个视觉运动映射,但我们展示了上下文提示在可以学习多少个映射方面提供了计算优势。
Feb, 2024
本文旨在比较基于学习的方法和经典方法在虚拟环境导航方面的表现,并通过对两个标准基准测试 MINOS 和 Stanford 大规模 3D 室内空间的经典导航代理的构建,证明了经典代理的优越性。同时,我们进行了详细的分析,研究学习代理和经典代理的优缺点以及虚拟环境特征对人员导航带来的影响。结果表明,学习代理在碰撞避免和存储管理方面较差,但在处理模糊性和噪声方面表现更佳。这些结果可以为未来导航代理的设计提供参考。
Jul, 2019