Mar, 2021

从野外人类视频中学习通用机器人奖励函数

TL;DR该研究提出了使用 Domain-agnostic Video Discriminator (DVD) 的方法,通过对分类视频完成相同任务的数据进行学习,实现多任务奖励功能的广义推理。通过将人类数据集与机器人数据相结合,该方法可以在未知环境中实现机器人操作任务的成功执行。