Jun, 2024

RoboUniView: 统一视角表征的视觉语言模型用于机器人操作

TL;DR利用视觉语言模型(VLMs)进行机器人操纵的研究提出了一种新的范式,旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异,该研究提出了 RoboUniView 方法,该方法从多个视角学习统一的视图表示,并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界,不受机器人平台摄像机参数的限制,并在 CALVIN 基准测试中获得了最先进的性能,将成功率从 88.7%提高到 96.2%。此外,该模型还表现出卓越的适应性和灵活性:它在未知摄像机参数下保持高性能,可以利用具有不同摄像机参数的多个数据集,并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。