预训练视觉表示对稳健操控的成功因素
基于大规模真实世界数据的视觉预训练在最近几年取得了很大的进展,展示了在像素观察中进行机器人学习的巨大潜力。本文从三个基本角度(预训练数据集、模型架构和训练方法)深入研究了视觉预训练策略对机器人操作任务的影响,并提供了几个重要的实验发现,有益于机器人学习。此外,我们提出了一种用于机器人操作的视觉预训练方案,称为 Vi-PRoM,它结合了自监督学习和监督学习。具体而言,前者利用对比学习从大规模无标签数据中获取潜在模式,而后者旨在学习视觉语义和时间动态。在各种仿真环境和真实机器人中进行了大量实验证明了所提出方案的优越性。更多细节和视频可在 https://explore-pretrain-robot.github.io 找到。
Aug, 2023
研究表明,预训练的视觉表示方法对于控制任务的学习同样有效,甚至在某些情况下可以优于基于真实状态的表示方法,而这些预训练模型仅需要使用标准视觉数据集,而不需要在目标环境中使用真实数据。
Mar, 2022
使用迁移学习框架,通过对视觉网络和物体操作网络进行预训练和微调,成功地实现了零经验机器人对物体的拾取任务,且只需少量的机器人经验即可获得更好的效果。
Jul, 2021
通过对机器人的预训练数据集进行集中分析,我们发现常规视觉数据集对于视觉 - 运动表示学习是竞争力强的选择,此外,预训练数据集的图像分布比其规模更为重要,同时简单的正规化策略可以显著改善真实世界策略学习。
Oct, 2023
本文提出了一种方法来解决复杂开放环境下机器人操作的问题,该方法基于先前训练的通用视觉模型作为感知系统的对象先验,并引入了一个基于对象的注意机制来确定相关对象,通过少数轨迹或演示将这些对象纳入学习策略,使用强化学习可以学习多种操作任务。
Aug, 2017
大规模实证研究表明预训练视觉表示(PVRs)的使用对训练执行现实任务的下游策略非常有用,尤其在操作和室内导航任务中表现出明显的性能优势。
Oct, 2023
利用自我监督的视觉变换模型及其新出的语义能力,通过聚类外观特征来形成稳定的关键点,从而改善模仿学习策略的泛化能力。本论文介绍了 BC-ViT,一种利用富含 DINO 预训练视觉变换器(ViT)补丁级嵌入的模仿学习算法,以通过示范获取更好的泛化效果。通过对一个多样化的物体操作任务数据集进行模仿学习的评估,证明了这种表示方式能够实现广义行为。为了促进对于模仿学习中泛化问题的进一步研究,我们提供了我们的方法、数据和评估方法。
Nov, 2023
人类具有内在的通用视觉表征,使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能,通过任务融合解码器指导表示学习,使得对于所有感知技能来说,学习编码的结构能够更好地表示重要信息,最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器(R3M、MVP 和 EgoVLP)的表示进行了改进,提升了下游操控策略的学习性能。
Oct, 2023
本文提出 “无损调适” 方案,以解决 fine-tuning 过程对预训练模型通用性的破坏,实验证明此方案在各种任务和模型(ViTs,NFNets 和 ResNets)上表现良好。
Apr, 2023