Sep, 2023

无限时标平均奖励马尔可夫决策过程中策略梯度算法的遗憾分析

TL;DR本文研究了无限时间段平均回报马尔可夫决策过程(MDP)。与现有研究不同的是,我们采用了基于通用策略梯度的算法,使其摆脱了线性 MDP 结构的约束。我们提出了一种基于策略梯度的算法,并证明了其全局收敛性质。然后我们证明该算法具有 $\tilde {\mathcal {O}}({T}^{3/4})$ 的后悔度。值得注意的是,本文是第一次对于一般参数化策略梯度算法在平均回报情景下的后悔计算进行了探索性研究。