本文提供了分布式 batch MARL 的有限样本分析,比较传统单智能体强化学习的有限样本错误较大,由于分布式计算造成的,这是对一般MARL算法在有限样本范围内严格的理论理解的一步。
Dec, 2018
本研究提出了一种名为value propagation的基于softmax时间一致性和分布式优化的MARL算法,实现了非线性函数逼近、非asymptotic收敛率、离线策略转移和控制的收敛保证。
Jan, 2019
本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法,旨在通过仅与本地邻居通信,协同优化全局平均回报。通过仅发送两个标量值变量,该算法可以解决强连通图的问题。
Jul, 2019
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
提出了基于LTDE-Neural-AC和演员-评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
该论文研究了协作多智能体强化学习中的集中式训练和策略共享,提出了一种基于一致性的去中心化演员-评论家方法,以减少通信成本并保证收敛,从而有效地降低了训练时的通信成本。
Feb, 2022
本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题,这种方法使用图的结构描述不同类型的多智能体之间的关系,并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法,能够在保证有效性的前提下,大幅减少采样复杂性。
研究了去中心化的多智能体强化学习算法,引入了对抗性智能体对共识更新的漏洞,并提出了一种算法,使得非对抗性智能体在受限制的情况下达成共识。
May, 2023
该论文系统地回顾了两种全面分散设置下的全面分散方法,即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和,并讨论了未来研究方向。
Jan, 2024
在完全分散的多智能体强化学习(MARL)的演员-评论家框架中,MARL策略评估(PE)问题是其中的一个关键组件,其中一组N个智能体通过与邻居通信合作评估给定策略下的全局状态的值函数。本文首次尝试回答一个有趣的开放问题:本地TD更新方法是否能够降低样本复杂性和通信复杂性。我们的理论和实验结果证实了允许执行多个本地TD更新步骤确实是降低MARL-PE的样本复杂性和通信复杂性的有效方法。
Mar, 2024