Jan, 2022

同伦策略镜像下降:策略收敛,隐含正规化和改进样本复杂度

TL;DR提出了一种新的策略梯度方法 —— 同伦策略镜像下降 (HPMD),用于解决具有有限状态和动作空间的折扣、无限时间 MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同 Bregman 散度之间进行扩展,以及是一些常见 Bregman 散度的有限时间精确收敛。