Aug, 2024

利用近似对称性实现高效的多智能体强化学习

TL;DR本研究解决了现有均值场博弈(MFG)在多智能体强化学习中面临的对称性假设限制问题,提出了一种将任意有限玩家的可能不对称博弈扩展为“诱导MFG”的方法。研究表明,针对新提出的α,β-对称博弈,诱导的MFG的纳什策略可以作为N玩家动态博弈的近似纳什策略,且在特定条件下,学习一个ε-纳什策略的样本复杂度为$\tilde{\mathcal{O}}(\varepsilon^{-6})$,为多智能体系统的学习提供了新的理论支持和实践潜力。