Mar, 2023

使用预训练视觉语言模型进行开放世界物体操作

TL;DR通过使用预训练的视觉 - 语言模型,开发了一种简单的方法 Manipulation of Open-World Objects (MOO) 来从自然语言命令和图像中提取目标标识信息,并将机器人策略基于当前图像、指令和提取的对象信息。在一个真实的移动机械臂上进行了多种实验,发现 MOO 可以零样本推广到广泛的新对象类别和环境中。