ICMLJul, 2022

具有结构转移的零和马尔可夫博弈中可证明有效的虚拟博弈策略优化

TL;DR本研究在多智能体竞争的环境下对零和结构化 Markov 博弈问题的策略优化算法进行了提出和分析,考虑通过上置界乐观算法与虚拟博弈相结合的同时策略优化,从而使双方智能体的总体最优性差距以 $\widetilde {O}(\sqrt {K})$ 的速度收敛,其中 $K$ 为回合数量。