Sep, 2018

基于生成对抗网络的样本高效模仿学习

TL;DR本文介绍了一种在模型 free 的前提下能够提高采样效率的演员评论家结构,利用了 GAIL 中对抗训练的方法和离策略演员评论家的优势,在多个连续控制任务中,我们证明了这种方法的简洁易行和稳定性。