Oct, 2021

独立自然策略梯度总是收敛于马尔科夫潜在博弈

TL;DR本文研究了多智能体协作/竞争情景下的马尔科夫潜在博弈(Markov Potential Games,简称MPGs),证明了独立自然策略梯度(Independent Natural Policy Gradient)在其内部一定会收敛,同时通过实验表明了自然策略梯度在路径游戏(routing games)和拥塞游戏(congestion games)中的优越性。