Jun, 2024

RoboPoint:机器人的空间可行性预测的视觉语言模型

TL;DR我们介绍了一个自动的合成数据生成流水线,用于调整机器人领域和需求中的视觉语言模型,并通过该流水线训练了 RoboPoint,该模型可以根据语言指令预测图像关键点的可行性。与其他方法相比,我们的方法无需真实世界数据收集或人类示范,使得它在适应多样环境和视点方面具有更大的可扩展性。此外,RoboPoint 是一个通用模型,可以用于机器人导航、操作和增强现实(AR)辅助等多个下游应用。我们的实验证明,RoboPoint 在预测空间可行性的准确性上比最先进的 VLMs(GPT-4o)和视觉提示技术(PIVOT)提高了 21.8%,在下游任务的成功率上提高了 30.5%。