Oct, 2019

Actor-Critic 在线性二次 Mean-Field Games 中能够证明地找到纳什均衡

TL;DR针对具有无限个代理的离散时间平均场马尔科夫博弈,提出了一种基于模型无关增强学习和函数逼近的平场演员 - 评论家算法,该算法可以找到纳什均衡并具有全局收敛保证。