Aug, 2024

马尔可夫潜在博弈的独立策略镜像下降:扩展到大数量玩家

TL;DR本文解决了多智能体强化学习中马尔可夫潜在博弈(MPGs)的大规模学习问题,尤其是在相同利益设置下的纳什均衡学习。提出的独立策略镜像下降算法(PMD)通过KL正则化,实现了迭代复杂度对智能体数量的依赖降低到$\sqrt{N}$,显著优于以往研究,实现了在大规模智能体系统中的高效学习。