Mar, 2023
使用预训练视觉语言模型进行开放世界物体操作
Open-World Object Manipulation using Pre-trained Vision-Language Models
TL;DR通过使用预训练的视觉-语言模型,开发了一种简单的方法Manipulation of Open-World Objects (MOO)来从自然语言命令和图像中提取目标标识信息,并将机器人策略基于当前图像、指令和提取的对象信息。在一个真实的移动机械臂上进行了多种实验,发现MOO可以零样本推广到广泛的新对象类别和环境中。