Nov, 2022

网络多智能体强化学习中局部策略迭代的全局收敛性

TL;DR本研究提出了一种名为局部策略迭代的算法,可以通过提高智能体之间的合作,最大化长期奖励的平均值,解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。