关键词independent natural policy gradient
搜索结果 - 2
- 马尔可夫势博弈的独立自然策略梯度的可证明快速收敛
该研究使用独立自然策略梯度算法解决马尔科夫潜在博弈中的多智能体强化学习问题,证明了在引入次优间隙的情况下,使用具有提供精确策略评估的正交算子的独立自然策略梯度方法可以渐进地在 Ε-Nash 均衡中达到 Ο(1/Ε) 次迭代,这比之前的结果 - 独立自然策略梯度总是收敛于马尔科夫潜在博弈
本文研究了多智能体协作 / 竞争情景下的马尔科夫潜在博弈(Markov Potential Games,简称 MPGs),证明了独立自然策略梯度(Independent Natural Policy Gradient)在其内部一定会收敛,同