可扩展的联合学习无线多址策略及其信令

Jun, 2022

可扩展的联合学习无线多址策略及其信令

Scalable Joint Learning of Wireless Multiple-Access Policies and their Signaling

Mateus P. Mota, Alvaro Valcarce, Jean-Marie Gorce

TL;DR本文利用多智能体强化学习框架，让基站和用户设备一起学习在无线多点接入场景中的信道访问策略和信令，比较竞争自由和基于竞争的基线，结果显示我们的框架在高流量情况下保持低冲突率的同时，在吞吐量方面表现出色。同时本文研究了所提出方法的可扩展性，并为解决该问题提供了首个结果。

Abstract

In this paper, we apply an multi-agent reinforcement learning (MARL) framework allowing the base station (BS) and the user equipments (UEs) to jointly learn a channel access policy and its →

multi-agent reinforcement learning wireless multiple access channel access policy signaling scalability

发现论文，激发创造

优化 MAC 信令与无线信道访问的联合学习

本文旨在探讨单元设备与基站之间交换数据前需传递信令消息的通信协议，提出了利用多智能体强化学习和学习通信技术以取代人工设计标准的方法，并测试了多智能体强化学习和学习通信技术在移动通信领域的应用效果。

Jul, 2020

基于多智能体强化学习的无人机网络资源分配

本文探讨了使用无人机作为空中基站提供无线通信服务的动态资源分配问题，并通过多智能体强化学习框架实现了长期收益的最大化。研究结果表明，该算法在信息交互开销和性能提升之间取得了良好的平衡。

Oct, 2018

多智能体深度强化学习用于大规模交通信号控制

本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法，以提高城市交通网络中的自适应交通信号控制的可观测性和减少学习难度，并在大型合成交通网格和摩纳哥城的大型实际交通网络下，通过模拟高峰流量动态，并将其与独立 A2C 和独立 Q-learning 算法进行比较，结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。

Mar, 2019

面向无线网络协议合成的多智能体强化学习

本文提出了一个基于多智能体强化学习的中介访问框架，使用强化学习解决无线网络中的访问问题，通过调整 MAC 层传输概率来实现最优负载并适应时间变化的负载，同时保持对异构负载的不可知性。

Feb, 2021

大规模网格交通网络区域信号控制的多智能体强化学习

本文提出了一种基于区域划分的交通信号控制方法，使用多智能体强化学习技术，利用基于交通网络分区的扩展分支决斗 Q 网络算法，解决方法众多、非稳定性问题和优化联合行动问题，提高了解决方案的鲁棒性。

Mar, 2023

网络系统控制的多智能体强化学习

本文研究了网络系统控制中的多智能体强化学习问题，提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明，合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线，而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。

Apr, 2020

综合接入回传网络的多智能体强化学习网络路由

本研究主要探讨无线路由方案的优化，特别关注于集成接入回程（IAB）网络，旨在通过采取多智能体强化学习和马尔可夫决策过程等方法，最大化分组到达比率同时最小化网络延迟，并提升网络效率。在本研究中，我们提出了一种称为关系型优势演员评论家（Relational A2C）的算法，并对其进行了三种不同的训练范式。研究结果表明，相较于其他强化学习算法，该算法具有更好的性能和更低的个体自私行为，为 IAB 网络的路由策略优化提供了新的思路。

May, 2023

基于表征通信的大规模交通信号控制的多智能体强化学习

基于通信的多智能体强化学习（MARL）框架用于大规模交通信号控制，每个智能体学习通信策略以选择消息的发送对象和交换可变长度的消息，实现去中心化和灵活的通信机制，并在网络拥塞和性能方面表现优于相关方法。

Oct, 2023

通过协作解决城市拥堵问题：基于异构 GNN 的 MARL 用于协调编队和交通信号控制

本研究提出了一种基于异构图多智能体强化学习和交通理论的创新方法，用于实时联合控制信号控制和车队编队，以缓解交通拥堵。

Oct, 2023

多智能体强化学习在多小区大规模 MIMO 系统中的能源节约

我们开发了一种多智能体强化学习算法，通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策，以最小化多个多基站多小区网络的总能耗，同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP)，以实现个别基站之间的协作，以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性，进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明，训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言，与自动休眠模式 1 (符号级睡眠) 算法相比，MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗，在高流量小时内提高了约 19% 的能源效率。

Feb, 2024