Nov, 2022

通过观察人类学习机器人操作的奖励函数

TL;DR该研究通过使用未标注的人类操作视频来学习机器人操作策略的任务不可知奖励函数,并采用时间对比学习得到的嵌入空间中的距离以及直接时间回归来评分从而实现在各种任务上重复使用一个模型,从而能够在多个操纵任务上加速训练,而无需从机器人环境中获得先验数据,也无需使用特定于任务的人类演示数据。