BriefGPT.xyz
Jul, 2020
基于动量的策略梯度方法
Momentum-Based Policy Gradient Methods
HTML
PDF
Feihu Huang, Shangqian Gao, Jian Pei, Heng Huang
TL;DR
本文提出了一种基于动量的策略梯度方法,利用自适应学习率,不需要任何大批量数据,以及基于新的动量方差降低技术和重要性采样,以及力学助理技术,从而提高学习效率。作者证明,该方法具有最佳的样本复杂度,并在实验中验证了其有效性。
Abstract
In the paper, we propose a class of efficient
momentum-based
policy gradient
methods for the model-free
reinforcement learning
, which use
→