Jun, 2022
马尔可夫潜势博弈中Softmax策略梯度的收敛性和劣质纳什均衡价格保证
Convergence and Price of Anarchy Guarantees of the Softmax Policy
Gradient in Markov Potential Games
TL;DR本文研究使用策略梯度方法解决马尔可夫势博弈(包括完全合作的情况)的收敛性,在策略参数化方面,包括tabular和神经网络等。通过引入POA和平滑概念,给出了POA边界,并通过实验比较了不同方法的收敛速度和POA。