Jun, 2024

OpenVLA:一个开放源代码的视觉语言行动模型

TL;DR通过使用互联网规模的视觉-语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉-语言-动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉-动作策略。我们介绍了OpenVLA,这是一个7B参数的开源VLA,它在多样化的970k真实世界机器人演示数据集上进行了训练。OpenVLA基于Llama 2语言模型和可视编码器,融合了DINOv2和SigLIP的预训练特征。通过增加数据多样性和新的模型组件,OpenVLA在广义操纵方面表现出色,在29个任务和多个机器人实体上的绝对任务成功率上优于RT-2-X(55B)等闭源模型16.5%,并且参数数量仅为其七分之一。我们进一步展示了OpenVLA对于新环境的有效微调,在涉及多个对象和强大语言基础能力的多任务环境中,具有特别强大的泛化能力,且优于Diffusion Policy等基于从头开始的模仿学习方法20.4%。此外,我们还探索了计算效率;作为额外贡献,我们表明OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化方式进行有效服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本以及基于PyTorch的代码库,支持在Open X-Embodiment数据集上规模化训练VLA。