Jul, 2022
具有结构转移的零和马尔可夫博弈中可证明有效的虚拟博弈策略优化
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions
TL;DR本研究在多智能体竞争的环境下对零和结构化Markov博弈问题的策略优化算法进行了提出和分析,考虑通过上置界乐观算法与虚拟博弈相结合的同时策略优化,从而使双方智能体的总体最优性差距以$\widetilde{O}(\sqrt{K})$的速度收敛,其中$K$为回合数量。