Oct, 2024
π₀:用于通用机器人控制的视觉-语言-行动流模型
$π_0$: A Vision-Language-Action Flow Model for General Robot Control
TL;DR本研究聚焦于机器人学习面临的数据、概括性和鲁棒性挑战,探索特别的机器人基础模型如何克服这些障碍。提出了一种基于预训练的视觉-语言模型的新流匹配架构,能够有效执行复杂和灵活的任务。研究结果显示,该模型在无监督学习下能够立即执行多种任务,并通过微调掌握新技能,对推进通用机器人控制具有重要影响。