ICLRFeb, 2020

具有状态的模仿学习与转移动力学不匹配

TL;DR本文介绍了一种新的基于状态的模仿学习算法,借助最近的对抗模仿学习方法,通过将总体优化目标分解为两个子问题并迭代地解决这些子问题,解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程,分析表明该算法在存在过渡动力学不匹配现象时特别有效,而基线 IL 方法则会导致性能下降。