May, 2018

通过元反强化学习学习意图的先验知识

TL;DR本文通过学习先验(prior)函数从其他任务的演示中推断奖励函数(reward functions),以优化从有限的演示中推断表达丰富的奖励函数的能力,并演示了该方法可以有效地从图像中恢复新任务的奖励。