ICLRSep, 2018

基于变分反强化学习的对抗性模仿

TL;DR通过生成敌对网络框架,提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略,同时学习变分信息最大化下的权力,并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估,证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。