Jun, 2020
基于平均回报的网络系统可扩展多智能体强化学习
Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward
Guannan Qu, Yiheng Lin, Adam Wierman, Na Li
TL;DR本文提出了一种可伸缩的演员 - 评论家(SAC)方法,可以解决具有本地依赖结构的网络多智能体强化学习(MARL)问题,其复杂度与本地邻域的状态 - 动作空间大小相比,而不是整个网络的规模,其效果取决于智能体在图中的距离,通过利用指数衰减性质,可以获得性能接近最优的局部策略。