Jun, 2024
面向开放世界抓取的大规模视觉语言模型
Towards Open-World Grasping with Large Vision-Language Models
TL;DR通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。