Mar, 2024
可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法
Provable Policy Gradient Methods for Average-Reward Markov Potential
Games
TL;DR研究马尔可夫潜势博弈在无限时间平均回报准则下,证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点,同时提出了渐进性和底座条件,通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础,并证明了三种算法的收敛性以及具体的时间复杂度,当需要估计策略梯度时,我们提出了一个算法并给出了样本复杂度分析,最后通过模拟研究来验证结果。