Jul, 2022

对称团队学习中,局部最优解是全局 Nash 均衡

TL;DR对于对称策略空间中的本地最优对称策略,该研究证明任何局部最优对称策略都是(全局)纳什均衡,这个结果适用于机器学习,并为找到对称策略空间中的局部最优的梯度方法提供全局性保证,最后,总结了研究结果在多智能体RL,合作逆RL和分散式 POMDPs中的应用。