Jul, 2019

策略梯度算法在线性二次博弈中没有收敛保证

TL;DR本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。