网络系统控制的多智能体强化学习

ICLRApr, 2020

网络系统控制的多智能体强化学习

Multi-agent Reinforcement Learning for Networked System Control

Tianshu Chu, Sandeep Chinchali, Sachin Katti

TL;DR本文研究了网络系统控制中的多智能体强化学习问题，提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明，合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线，而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。

Abstract

This paper considers multi-agent reinforcement learning (MARL) in networked system control. Specifically, each agent learns a decentralized control policy based on local observations and messages from connected neighbors. We formulate such a networked MARL (NMARL) problem as a spatiote

multi-agent reinforcement learning networked system control neurcomm spatial discount factor learning efficiency

发现论文，激发创造

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

多智能体深度强化学习用于大规模交通信号控制

本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法，以提高城市交通网络中的自适应交通信号控制的可观测性和减少学习难度，并在大型合成交通网格和摩纳哥城的大型实际交通网络下，通过模拟高峰流量动态，并将其与独立 A2C 和独立 Q-learning 算法进行比较，结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。

Mar, 2019

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018

基于表征通信的大规模交通信号控制的多智能体强化学习

基于通信的多智能体强化学习（MARL）框架用于大规模交通信号控制，每个智能体学习通信策略以选择消息的发送对象和交换可变长度的消息，实现去中心化和灵活的通信机制，并在网络拥塞和性能方面表现优于相关方法。

Oct, 2023

MARL-LNS：基于大型邻域搜索的合作多智能体强化学习

合作多智能体强化学习是一个在过去五年中越来越重要的研究主题，因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架 MARL-LNS，通过在交替的智能体子集上进行训练，并使用现有的深度 MARL 算法作为底层训练器来解决维度灾难的问题，而不需要额外的参数进行训练。基于该框架，我们提供了三种算法变种：随机大邻域搜索（RLNS），批量大邻域搜索（BLNS）和自适应大邻域搜索（ALNS），这些算法以不同的方式交替使用智能体子集。我们在 StarCraft Multi-Agent Challenge 和 Google Research Football 上测试了我们的算法，并证明我们的算法可以自动减少至少 10％的训练时间，同时达到与原始算法相同的最终技能水平。

Apr, 2024

去中心化网络化深度多智能体强化学习的价值传播

本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法，实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。

Jan, 2019