Apr, 2016

同时估计奖励与动态的逆强化学习

TL;DR本文提出了一种基于梯度的逆强化学习方法,同时估计系统动态,以后解决由生成策略引起的演示偏差,有效提高了样本利用率并准确估计奖励和转移模型,该方法在合成 MDP 和转移学习任务上都得到了改进。