Dec, 2018

生成敌对自模仿学习

TL;DR本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法,旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹,而非直接最大化奖励,从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数,将其与任何策略梯度目标轻松结合。实验结果显示,GASIL 改进了2D PointMass和 MuJoCo 环境下基于接近策略优化的性能。