ICLRNov, 2017

回顾策略梯度

TL;DR本文研究如何将 hindsight 引入到 policy gradient 方法中,对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。