多智能体强化学习在多小区大规模 MIMO 系统中的能源节约

Feb, 2024

多智能体强化学习在多小区大规模 MIMO 系统中的能源节约

Multi-agent Reinforcement Learning for Energy Saving in Multi-Cell Massive MIMO Systems

Tianzhang Cai, Qichen Wang, Shuai Zhang, Özlem Tuğfe Demir, Cicek Cavdar

TL;DR我们开发了一种多智能体强化学习算法，通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策，以最小化多个多基站多小区网络的总能耗，同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP)，以实现个别基站之间的协作，以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性，进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明，训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言，与自动休眠模式 1 (符号级睡眠) 算法相比，MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗，在高流量小时内提高了约 19% 的能源效率。

Abstract

We develop a multi-agent reinforcement learning (MARL) algorithm to minimize the total energy consumption of multiple massive mimo (multip

multi-agent reinforcement learning energy consumption massive mimo base stations collaborative control policy

发现论文，激发创造

多智能体强化学习在海上操作技术网络安全中的应用

该论文展示了自主网络防御在工业控制系统中的潜力，并提供了一个基线环境，进一步探索多智能体强化学习在此问题领域的应用。

Jan, 2024

网络化多智能体强化学习用于点对点能源交易

使用多智能体强化学习 (MARL) 框架，通过特定的供需比例 P2P 结算机制，自动化处理消费者的太阳能光伏和能源储存资源的竞价和管理，以及实现电压控制，确保 P2P 能源交易的物理可行性，并为实际应用铺平道路。

Jan, 2024

电力系统拓扑优化的多智能体强化学习

该论文提出了一种适用于扩展动作空间的分层多智能体强化学习 (MARL) 框架，利用电网固有的分层结构，用于管理大规模的电力网络，并且实验结果表明该框架的性能与单智能体强化学习方法相当。

Oct, 2023

高效的多智能体强化学习规划

多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。

May, 2024

可扩展的联合学习无线多址策略及其信令

本文利用多智能体强化学习框架，让基站和用户设备一起学习在无线多点接入场景中的信道访问策略和信令，比较竞争自由和基于竞争的基线，结果显示我们的框架在高流量情况下保持低冲突率的同时，在吞吐量方面表现出色。同时本文研究了所提出方法的可扩展性，并为解决该问题提供了首个结果。

Jun, 2022

能源网络的多智能体强化学习：计算挑战、进展与开放问题

电网架构和功能的快速变化以及可再生能源和分布式能源资源的不断增长导致了各种技术和管理挑战。本调研报告探讨了多智能体强化学习（MARL）如何支持能源网络的去中心化和脱碳，并缓解相关的挑战。通过指定管理能源网络中的关键计算挑战，回顾最新的研究进展，以及突显可以使用 MARL 解决的开放性挑战。

Apr, 2024

基于模仿学习的替代多智体近端策略优化算法：面向整齐群体的追逐避让

本论文提出了一种基于分散式模仿学习的多智能体代理近端策略优化（IA-MAPPO）算法，以灵活且经济高效的方式在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换，并利用分散化的形成控制器以降低通信开销和提高可伸缩性，同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了 IA-MAPPO 算法的有效性，并且广泛的消融实验显示了与中心化解决方案相当的性能，并显著降低了通信开销。

Nov, 2023

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

基于模型的强化学习近似能源市场出清与竞价

通过提供一个学习了的 OPF 近似和显式的市场规则的能源市场模型，以 MARL 算法的形式来确定预期的能源市场参与者的行为，从而减少与系统的交互次数，并减少培训时间，同时稍微糟糕地近似了纳什均衡。

Mar, 2023

基于深度强化学习的多智能体通信与协作决策研究

本篇论文基于 CTDE 框架，研究基于 MAPPO 算法的多智能体合作决策，并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法，并在 SMAC 和 MPE 上进行了实验，结果表明此算法可以改善多智能体环境中的非稳定性，提高多智能体间的协同决策能力。

May, 2023