Mar, 2020

随机递归动量策略梯度方法

TL;DR本文提出一种名为 STORM-PG 的新算法,它采用 SARAH 类型的随机递归方差降低的策略梯度,具有对于 STORM-PG 具有严格的 O(1/ε^3)样本复杂度界限,并避免了其他方差减小的策略梯度方法中存在的大批处理和小批处理之间的交替,从而允许较简单的参数调整,并在数值实验中表现出了与其他策略梯度算法相比的优越性。