ICMLJun, 2020

破解多智体的诅咒:可证明的均值场增强学习中的均值嵌入 Q 迭代算法

TL;DR本文研究多智能体协同学习中的代理对称性问题,提出基于平均场的分布式状态下的问题和解法,并针对提出的算法进行了非渐近分析,得出当观察代理数量增加时,算法性能将得到提高的结论。