Jan, 2022

关于策略梯度方法的收敛速度

TL;DR研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。