May, 2024

高效的保守世界模型下的模仿学习

TL;DR我们通过对专家演示进行政策学习来解决没有奖励函数的问题,并提出了将模仿学习视为微调问题的方法,通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能,只需要 10 个演示且没有奖励标签,同时解决了复杂的灵巧操作任务。