Nov, 2023

GPT-4V (ision) 用于机器人:来自人类演示的多模态任务规划

TL;DR我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线,以促进机器人操纵。该系统分析人类执行任务的视频,并创建包含可支配见解的可执行机器人程序。实验表明,该方法在实现从人类示范中的真实机器人操作方面具有显著效果。