May, 2024

快速随机策略梯度:负动量用于强化学习

TL;DR从利用动量的角度开发了一种称为SPG-NM的快速SPG算法,将一种新型的负动量技术应用于经典的SPG算法,其计算复杂度与现代SPG类型算法几乎相同,并在两个经典任务中评估了该算法的结果,数值实验在不同设置下对我们的SPG-NM算法的稳健性进行了确认。