Jan, 2021

针对强化学习的政策镜面下降算法:线性收敛、新采样复杂度和广义问题类

TL;DR本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了 PMD 方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。