Oct, 2017

从示范中学习任务规范

TL;DR本文提出了一种从机器人演示中学习非马尔可夫奖励的方法,通过最大后验概率推断问题,采用最大熵原理推导出演示似然模型,并用有效的方法在候选规范的大池中搜索最有可能的规范,实验表明学习规范有助于避免由于即席奖励组合而经常出现的常见问题。