提出了一种自我监督视觉行为模型(VANP)用于视觉导航的预训练,通过最大化嵌入之间的信息来学习与导航任务相关的特定视觉区域,实现了与完全监督模型相媲美的性能,同时减少了一半的训练时间和仅使用 0.08% 的 ImageNet 数据进行训练。
Mar, 2024
提出了一种无需外部监督或奖励的新方法,通过三个阶段,学习从图像输入进行导航:学习视角的良好表示,然后使用内存进行探索,最后通过设置自己的目标来学习导航。该模型仅使用内在奖励进行培训,因此适用于任何具有图像观察的环境。通过使用 RGB 输入训练代理在具有挑战性的 Gibson 数据集的逼真环境中导航的好处。
Apr, 2020
本研究旨在利用空间和时间的信息来改善自我监督学习,以提高分类性能。我们设计了一种流程来生成来自 ThreeDWorld 的自我视觉图像并记录相关的导航信息。修改动量对比(MoCo)模型,以代替实例区分进行预训练阶段中两个视图的相似性评估。结果显示,对比实例区分方法,本方法优于自我监督训练状态下的性能.
Feb, 2022
该研究使用不同的噪声过程生成图像,并将其用作视觉表示学习者的训练数据。通过使用对比损失,研究两种类型的噪声过程,发现噪声需要捕捉真实数据的某些结构性质,但即使与真实数据差异很大的过程也可以实现良好的性能。多样性是学习良好表示的关键属性。
Jun, 2021
本研究主要探讨了如何在复杂环境下使用语义视觉导航技术,通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策,并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。
May, 2018
本研究提出了一种基于自监督学习的方法,通过对漫游的被动视频学习导航,而无需交互、地图信息或强化学习,旨在解决基于图像目标的导航任务,该方法可以作为使用强化学习或模拟的任何未来基于图像的导航任务的强大基准。
Oct, 2021
本文提出了第一个预训练和微调范式,用于视觉语言导航 (VLN) 任务。通过自监督学习方式训练大量的图像 - 文本 - 动作三元组,预训练模型提供通用的视觉环境和语言指令表示,可以轻松地用于现有的 VLN 框架。通过在三个 VLN 任务上验证性能可行性,验证了该方法的有效性和推广性。
Feb, 2020
本文介绍了一种基于强化学习的音视觉导航方法,通过动态设置和学习的航点和声音记忆,利用视觉和声音数据揭示了未映射空间的几何结构,实验结果表明,学习视听空间之间的联系对于音视觉导航至关重要。
Aug, 2020
通过单次覆盖遍历记录数据,提出了一种有效地在移动机器人上快速学习面向目标导航策略的方法,并且能够在实际机器人上成功地部署,同时能够处理测试时的环境外观差异。
Jul, 2018
本文探讨学习任务的连续性以及自适应性,并提出了一种元强化学习方法(SAVN),它能够在缺乏显式监督的情况下自适应地适应新环境,实验显示其在视觉导航中成功率和 SPL 指标上均有显著提高。
Dec, 2018