ICLRApr, 2020

网络系统控制的多智能体强化学习

TL;DR本文研究了网络系统控制中的多智能体强化学习问题,提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明,合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线,而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。