Jun, 2021

Exploiter 的威力:在大状态空间下可证明的多智能体强化学习

TL;DR本文提出了一个新算法,能够有效地应用于大量状态空间问题中的多智能体强化学习,以寻找具有低复杂度的多代理贝尔曼 - 伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。