Oct, 2023

马尔可夫势博弈的独立自然策略梯度的可证明快速收敛

TL;DR该研究使用独立自然策略梯度算法解决马尔科夫潜在博弈中的多智能体强化学习问题,证明了在引入次优间隙的情况下,使用具有提供精确策略评估的正交算子的独立自然策略梯度方法可以渐进地在Ε-Nash均衡中达到Ο(1/Ε)次迭代,这比之前的结果Ο(1/Ε^2)次迭代要好,并且与单智能体的情况相同,其可达到Ο(1/Ε)次迭代的阶数。通过合成潜在博弈和拥塞博弈的实证结果来验证理论上的界限。