Jan, 2024

关于随机(方差减少)近端梯度法在正则化期望回报优化中的应用

TL;DR基于正则化预期奖励优化问题,我们应用分析了经典的随机近端梯度方法,在标准条件下表明该方法在收敛到ε-稳定点的样本复杂度为O(ε^{-4})。考虑到经典随机梯度估计器的方差通常较大,导致收敛速度变慢,我们还应用了一种高效的随机方差缩减近端梯度方法与基于重要性采样的概率梯度估计器(PAGE)。我们的分析结果表明,在附加条件下,样本复杂度可以从O(ε^{-4})提高到O(ε^{-3})。在强化学习文献中的类似设置下,我们的结果与竞争对手的随机(方差减小)近端梯度方法的样本复杂度相匹配。