面向移动机器人导航的预训练遮蔽图像模型
本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练,在多种机器人任务和实体上表现出了较高效果,并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练,展示了对于机器人学习的视觉预培训的规模化提升的好处。
Oct, 2022
使用自监督方法预训练的 Vision Transformer,成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型,其推理分辨率可以调整以平衡预测粒度和实时感知约束,并用作简单而强大的视觉伺服代理的骨干,用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。
Mar, 2022
本文提出了一种基于车载摄像头图像的道路布局推断模型,同时构建了一个路况数据集,可以将导航地图的元数据与 Google 街景图像匹配以提供标签,并利用深度卷积网络训练该模型,结果表明该方法可用于提升基础设施安全性。
Nov, 2016
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
利用自我监督学习方法,通过预训练的遮蔽自动编码器在 Digital Elevation Models 上提取建筑物和道路分割,有效利用有限的标注数据,为地表变化频繁的任务提供数据高效的学习器。
Sep, 2023
本文表明,来自真实世界图像的自监督视觉预训练对于从像素学习运动控制任务是有效的;为了加快像素学习的进展,本文还贡献了一套手工设计的基准任务,其中包括运动、场景和机器人等方面的变化。通过防冻度量的视觉编码器和强化学习,我们实现了与带标签、状态估计或专家演示相比高达 80% 的绝对成功率,有时甚至能与理论最好状态匹敌;还发现,来自 YouTube 或自我中心视频等野外图像,对于各种操作任务的视觉表现比 ImageNet 图像更好。
Mar, 2022
使用遮盖自编码器训练简单的 Vision Transformer,能够在多个视觉模态下获得与单一模态相当或更好的视觉表示,而只需使用单一的预训练模型,大大简化架构并加快训练速度。
Jun, 2022
我们提出了一种新颖的面向车辆的预训练框架称为 VehicleMAE,它融合了来自车辆轮廓信息的空间结构和来自信息性高级自然语言描述的语义结构,以实现有效的车辆外观重建。我们构建了一个大规模的数据集 Autobot1M,包含约 1M 辆车图像和 12693 个文本信息,用于我们的模型的预训练。通过对四个基于车辆的下游任务的广泛实验,充分验证了我们的 VehicleMAE 的有效性。
Dec, 2023
本研究通过使用自监督学习以及具有表面网格的视觉转换器架构,构建了模型以模拟皮层结构,进而实现对皮层表面的学习。通过在较大数据集上进行预训练,可以获得强大的表示能力,用于在数据少的情景下进行微调,而在皮层表型回归任务中,预训练可以带来 26% 的性能提升和 80% 的更快收敛速度。
Aug, 2023
通过自编码器和动态学习的分离以及辅助奖励预测目标的引入,提出了一种新的视觉模型 RL 框架,取得了 Meta-world 和 RLBench 的 50 项任务中,81.7% 的成功率的表现。
Jun, 2022