BriefGPT.xyz
May, 2024
快速随机策略梯度:负动量用于强化学习
Fast Stochastic Policy Gradient: Negative Momentum for Reinforcement Learning
HTML
PDF
Haobin Zhang, Zhuang Yang
TL;DR
从利用动量的角度开发了一种称为SPG-NM的快速SPG算法,将一种新型的负动量技术应用于经典的SPG算法,其计算复杂度与现代SPG类型算法几乎相同,并在两个经典任务中评估了该算法的结果,数值实验在不同设置下对我们的SPG-NM算法的稳健性进行了确认。
Abstract
stochastic optimization algorithms
, particularly
stochastic policy gradient
(SPG), report significant success in reinforcement learning (RL). Nevertheless, up to now, that how to speedily acquire an optimal solut
→