Mar, 2024

合作竞争代理的独立强化学习:一种均值场视角

TL;DR本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法,并通过均值场设定下的广义和型场博弈,证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题,并利用时间独立对角优势下的后向递归离散时间哈密顿-雅可比-艾萨克斯方程,进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。