Aug, 2023

探索机器人操纵的视觉预训练:数据集、模型与方法

TL;DR基于大规模真实世界数据的视觉预训练在最近几年取得了很大的进展,展示了在像素观察中进行机器人学习的巨大潜力。本文从三个基本角度(预训练数据集、模型架构和训练方法)深入研究了视觉预训练策略对机器人操作任务的影响,并提供了几个重要的实验发现,有益于机器人学习。此外,我们提出了一种用于机器人操作的视觉预训练方案,称为Vi-PRoM,它结合了自监督学习和监督学习。具体而言,前者利用对比学习从大规模无标签数据中获取潜在模式,而后者旨在学习视觉语义和时间动态。在各种仿真环境和真实机器人中进行了大量实验证明了所提出方案的优越性。更多细节和视频可在https://explore-pretrain-robot.github.io找到。