Nov, 2023

基于 CLIP 的语言引导机器人抓取:在杂乱环境中的参考抓取合成

TL;DR这项研究关注于在人类中心环境中操作的机器人,通过整合视觉定位和抓握能力,根据用户指令高效操纵物体。首先创建了一个基于 OCID 数据集中杂乱室内场景的难题基准,其中生成指代表达式并与 4 自由度的抓握姿势相连接,然后提出了一种新颖的端到端模型(CROG),利用 CLIP 的视觉定位能力直接从图像 - 文本对中学习抓握综合。实验结果表明,CROG 在挑战性基准测试中显著改善了定位和抓握能力,经过模拟和硬件的广泛机器人实验证明了该方法在具有杂乱物体的挑战性交互抓握场景中的有效性。