Oct, 2023

波兰空间中熵正则化的马尔可夫决策过程的费歇 - 劳梯度流

TL;DR我们研究了具有 Polish 状态和动作空间的无限时段熵正则化马尔可夫决策过程的 Fisher-Rao 策略梯度流的全球收敛性。该流是策略镜像下降方法的连续时间模拟。我们建立了梯度流的全球适定性,并证明其指数级收敛到最优策略。此外,我们证明了该流在梯度评估方面的稳定性,从而揭示了以对数线性策略参数化的自然策略梯度流的性能。为了克服客观函数的非凸性和由熵正则化引起的不连续性引起的挑战,我们利用了性能差分引理和梯度与镜像下降流之间的对偶关系。