Feb, 2024

自然策略梯度在无限状态平均奖励马尔可夫决策过程上的收敛性

TL;DR该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为O(1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现O(1/√T)的收敛速度。关键是根据NPG算法的迭代策略所达到的相对值函数,我们得出了这一结果。