Jul, 2019
策略梯度算法在线性二次博弈中没有收敛保证
Policy-Gradient Algorithms Have No Guarantees of Convergence in Linear Quadratic Games
Eric Mazumdar, Lillian J. Ratliff, Michael I. Jordan, S. Shankar Sastry
TL;DR本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。