Jun, 2020

基于平均回报的网络系统可扩展多智能体强化学习

TL;DR本文提出了一种可伸缩的演员 - 评论家(SAC)方法,可以解决具有本地依赖结构的网络多智能体强化学习(MARL)问题,其复杂度与本地邻域的状态 - 动作空间大小相比,而不是整个网络的规模,其效果取决于智能体在图中的距离,通过利用指数衰减性质,可以获得性能接近最优的局部策略。