May, 2024

多智能体系统中独立学习的近似全局收敛性

TL;DR独立学习是一个常用方法来实现大规模多智能体系统的可扩展性,本文研究了两个代表性算法,在基于价值函数和策略的框架中,为近似全局收敛提供了首个有限样本分析结果。这些结果揭示了样本复杂度约为 ϵ^(-2),考虑了智能体间的依赖关系和独立学习实现全局收敛的基本限制。为了建立这一结果,我们开发了一种新的独立学习分析方法,通过构建可分离的马尔可夫决策过程 (MDP) 进行收敛性分析,然后限制由于可分离 MDP 与原始 MDP 之间的模型差异所造成的差距。此外,我们使用合成 MDP 和电动车充电示例进行数值实验,验证了我们的理论发现并展示了独立学习的实际适用性。