Jul, 2020

基于动量的策略梯度方法

TL;DR本文提出了一种基于动量的策略梯度方法,利用自适应学习率,不需要任何大批量数据,以及基于新的动量方差降低技术和重要性采样,以及力学助理技术,从而提高学习效率。作者证明,该方法具有最佳的样本复杂度,并在实验中验证了其有效性。