Jul, 2020

有限 MDP 的策略梯度方法线性收敛性

TL;DR本文重新审视了策略梯度法在有限状态和动作 MDPs 中的有限时间分析,并基于与策略迭代的关系展示出许多策略梯度法变体使用大步长成功并达到线性收敛率。