May, 2021

带正则化的政策镜像下降算法:具有线性收敛的广义框架

TL;DR提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题,具有线性收敛特性,支持一般类别的凸正则化器,并在数值实验中得到验证。