Feb, 2024

多智能体强化学习在多小区大规模 MIMO 系统中的能源节约

TL;DR我们开发了一种多智能体强化学习算法,通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策,以最小化多个多基站多小区网络的总能耗,同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP),以实现个别基站之间的协作,以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性,进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明,训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言,与自动休眠模式 1 (符号级睡眠) 算法相比,MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗,在高流量小时内提高了约 19% 的能源效率。