Sep, 2023

物理基础的视觉语言模型用于机器人操作

TL;DR通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识,我们提出了一种基于物理概念的视觉语言模型(VLM),并将其与基于大语言模型的机器人规划器结合使用,取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外,在真实机器人上展示了物理概念视觉语言模型的好处,提高了任务成功率。