Mar, 2024

抓取一切:将教师增强的策略梯度学习与实例分割相结合,抓取任意物体

TL;DR交互抓取从杂乱环境中非常类似于人类灵巧度的问题中,是机器人学习中最久远的问题之一。我们提出了一种新颖的两阶段学习框架 —— 师傅增益策略梯度(TAPG),将强化学习和策略蒸馏相结合。通过训练一位师傅策略以掌握基于物体姿态信息的运动控制,TAPG 能够在基于物体分割的感觉运动策略上实现引导且适应性的学习。我们通过使用面向特定物体分割的 “Segment Anything Model” 从仿真环境零迁移到真实机器人环境。根据人类可理解的提示,我们训练出的策略能够在仿真和现实世界中熟练地从杂乱环境中抓取各种物体。此外,我们展示了对新物体的鲁棒零迁移。我们的实验视频可以在 https://maltemosbach.github.io/grasp_anything 上找到。