ICLRJun, 2020

原始 Wasserstein 模仿学习

TL;DR本文提出了一种新的基于 Primal Wasserstein Imitation Learning(PWIL)算法的 Imitation Learning method,通过离线推导奖励函数,在 MuJoCo 领域的多个连续控制任务中实现了高效的样本复原,并且匹配的是 Wasserstein 距离,而非常用的性能代理。