Nov, 2023
视觉语言基础模型作为有效的机器人模仿者
Vision-Language Foundation Models as Effective Robot Imitators
TL;DR通过对开放源代码的视觉-语言模型进行简单微调,RoboFlamingo构建了一个简单而新颖的视觉-语言操控框架,并利用单步视觉-语言理解的预训练模型、显式策略推测历史信息,通过模仿学习在以语言为条件的操纵数据集上微调。通过在基准测试上超过最先进的性能,表明RoboFlamingo能够有效并具有竞争力地将VLM适应到机器人控制中,为机器人操作提供了一种具有潜力的经济高效和易于使用的解决方案。