Jun, 2020

以 Wasserstein 距离为导向的对抗模仿学习,结合奖励形状探索

TL;DR本文提出的名为 WDAIL 的新算法,在 采用 Wasserstein 距离、Proximal Policy Optimization 技术和不同的 奖励函数形状等三个方面做了改进,提高了模拟学习的性能,并在 MuJoCo 的复杂连续控制任务中取得了显著性能。