分布式强化学习中通信高效的多智能体 Actor-Critic 算法

Jul, 2019

分布式强化学习中通信高效的多智能体 Actor-Critic 算法

A Communication-Efficient Multi-Agent Actor-Critic Algorithm for Distributed Reinforcement Learning

Yixuan Lin, Kaiqing Zhang, Zhuoran Yang, Zhaoran Wang, Tamer Başar...

TL;DR本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法，旨在通过仅与本地邻居通信，协同优化全局平均回报。通过仅发送两个标量值变量，该算法可以解决强连通图的问题。

Abstract

This paper considers a distributed reinforcement learning problem in which a network of multiple agents aim to cooperatively maximize the globally averaged return through communication with only local neighbors. A randomized →

distributed reinforcement learning multi-agent systems actor-critic algorithm communication-efficient strongly connected graphs

发现论文，激发创造

分布式强化学习的多智能体离线演员 - 评论家算法

本研究将离线策略强化学习拓展至多智能体情景中，并利用强调时间差分学习来评估和提高目标策略的协作效应，进而提出了一种新的多智能体离线策略演员 - 评论家算法，并证明了收敛性。

Mar, 2019

多智能体自然演员 - 评论强化学习算法

本研究提出三种完全分散的自然 Actor Critic （MAN）算法，具有全局收敛性和在交通网络中降低平均拥堵率的实际应用。

Sep, 2021

ACCNet: 深度多智能体强化学习中用于 “学习通讯” 的演员 - 协调器 - 评论家网络

本文通过提出 Actor-Coordinator-Critic Net (ACCNet) 框架，结合强化学习和深度学习技术，在多智能体环境下实现更好的学习通信协议能力，并对学习到的协议进行分析和设计探讨。

Jun, 2017

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018

同质化马尔可夫博弈的高效通信演员 - 评论方法

该论文研究了协作多智能体强化学习中的集中式训练和策略共享，提出了一种基于一致性的去中心化演员 - 评论家方法，以减少通信成本并保证收敛，从而有效地降低了训练时的通信成本。

Feb, 2022

具有图卷积通信的反事实多智体强化学习

该研究提出了一种基于图卷积和多因素策略梯度的架构，用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题，并在一系列任务中取得了优异表现。

Apr, 2020

基于平均回报的网络系统可扩展多智能体强化学习

本文提出了一种可伸缩的演员 - 评论家（SAC）方法，可以解决具有本地依赖结构的网络多智能体强化学习（MARL）问题，其复杂度与本地邻域的状态 - 动作空间大小相比，而不是整个网络的规模，其效果取决于智能体在图中的距离，通过利用指数衰减性质，可以获得性能接近最优的局部策略。

Jun, 2020

强化学习优化：从单智能体到协作智能体

该文章回顾了多智能体强化学习算法在大型控制系统和通信网络方面的最新进展，主要关注不同协调协议下的分散设置，并从分布式优化的视角突出了强化学习算法从单一智能体到多智能体系统的演变，强调多智能体强化学习与分布式优化、信号处理之间的合作，并总结了未来的发展方向与挑战。

Dec, 2019

多智能体强化学习：异步通信和线性函数逼近

该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用，提出了一种基于价值迭代的算法，实现异步通信并保证协作的优势，证明了，当使用线性函数逼近时，该算法的遗憾值可达到 $\tilde {\mathcal {O}}(d^{3/2} H^2\sqrt {K})$，且通信复杂度为 $\tilde {\mathcal {O}}(dHM^2)$。

May, 2023