Nov, 2023

视觉语言基础模型作为有效的机器人模仿者

TL;DR通过对开放源代码的视觉 - 语言模型进行简单微调,RoboFlamingo 构建了一个简单而新颖的视觉 - 语言操控框架,并利用单步视觉 - 语言理解的预训练模型、显式策略推测历史信息,通过模仿学习在以语言为条件的操纵数据集上微调。通过在基准测试上超过最先进的性能,表明 RoboFlamingo 能够有效并具有竞争力地将 VLM 适应到机器人控制中,为机器人操作提供了一种具有潜力的经济高效和易于使用的解决方案。