Feb, 2024

DINOBot:通过视觉基础模型的检索和对齐进行机器人操作

TL;DR提出了DINOBot,这是一个新颖的机器人操作的模仿学习框架,利用DINO训练的视觉变压器从图像级别和像素级别的能力。通过一系列的现实世界实验,表明利用视觉基础模型的图像级别和像素级别属性可以实现前所未有的学习效率和泛化能力。