多智能体自然演员 - 评论强化学习算法

MMSep, 2021

多智能体自然演员 - 评论强化学习算法

Multi-agent Natural Actor-critic Reinforcement Learning Algorithms

Prashant Trivedi, Nandyala Hemachandra

TL;DR本研究提出三种完全分散的自然 Actor Critic （MAN）算法，具有全局收敛性和在交通网络中降低平均拥堵率的实际应用。

Abstract

multi-agent actor-critic algorithms are an important part of the reinforcement learning paradigm. We propose three fully decentralized multi-agent natural actor-critic (MAN) algorithms in this work. The objective

multi-agent actor-critic algorithms reinforcement learning decentralized algorithms global convergence traffic network

发现论文，激发创造

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018

分布式强化学习中通信高效的多智能体 Actor-Critic 算法

本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法，旨在通过仅与本地邻居通信，协同优化全局平均回报。通过仅发送两个标量值变量，该算法可以解决强连通图的问题。

Jul, 2019

基于平均回报的网络系统可扩展多智能体强化学习

本文提出了一种可伸缩的演员 - 评论家（SAC）方法，可以解决具有本地依赖结构的网络多智能体强化学习（MARL）问题，其复杂度与本地邻域的状态 - 动作空间大小相比，而不是整个网络的规模，其效果取决于智能体在图中的距离，通过利用指数衰减性质，可以获得性能接近最优的局部策略。

Jun, 2020

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

通过应用 Lagrange 乘数法，我们对带有不等式约束的 C-MDP 中的 actor critic 和 natural actor critic 算法进行了非渐近分析，并证明这些算法在非独立同分布（Markovian）环境中能够找到性能函数的一阶稳定点，其采样复杂度分别为 ε^{-2.5}（C-AC 算法和 C-NAC 算法）。我们还在几个不同的网格环境中进行了实验，并观察到这两个算法在大网格尺寸上的良好实验结果，受限的自然 actor critic 稍微优于受限的 actor critic，而对于小网格尺寸，后者稍微优于前者。

Oct, 2023

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

用于有约束多任务强化学习的自然策略梯度和演员评论家方法

多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式，在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题，并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题，并研究了线性函数逼近的泛化扩展。

May, 2024

双平均原始对偶优化的多智能体强化学习

该论文提出了一种双重平均方案，其中每个代理迭代地执行平均化，以融合相邻梯度信息和本地奖励信息，解决多智能体强化学习中的政策评估问题，并且实现了分散的凸凹螺旋点问题的快速收敛。

Jun, 2018

针对对手感知的去中心化网络多智能体强化学习算法

研究了去中心化的多智能体强化学习算法，引入了对抗性智能体对共识更新的漏洞，并提出了一种算法，使得非对抗性智能体在受限制的情况下达成共识。

May, 2023