DINOBot：通过视觉基础模型的检索和对齐进行机器人操作

Feb, 2024

DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models

Norman Di Palo, Edward Johns

TL;DR提出了DINOBot，这是一个新颖的机器人操作的模仿学习框架，利用DINO训练的视觉变压器从图像级别和像素级别的能力。通过一系列的现实世界实验，表明利用视觉基础模型的图像级别和像素级别属性可以实现前所未有的学习效率和泛化能力。

Abstract

We propose dinobot, a novel imitation learning framework for robot manipulation, which leverages the image-level and pixel-level capabilit