Jul, 2022

野外场景下人机模仿

TL;DR提出了一种名为 WHIRL 的算法,该算法采取第三人称的视角从人类被动、非结构化的数据中提取出先验,并使用其初始化代理的策略,同时引入了有效的现实世界策略学习方案和探索方法,能在真实环境下成功地学习人类模仿机器人,并完成 20 种不同的操作任务。