多智能体强化学习的速度性能表征
本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法(独立学习、集中式多智能体策略梯度、价值分解)在多样化的合作多智能体学习任务中的表现,为算法在不同学习任务中的预期性能提供参考,并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL,延伸了 PyMARL 代码库以包括其他算法,并允许对算法实现细节进行灵活配置,例如参数共享。最后,我们还开源了两个多智能体研究的环境,重点是在稀疏奖励下的协调。
Jun, 2020
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文提出了一种名为 MAMBA 的新方法,通过利用基于模型的强化学习(MBRL)进一步利用合作环境中的集中式训练,从而使代理之间的通信足以在执行阶段维持每个代理的世界模型,而虚拟推演可用于培训,从而通过减少与环境的互动次数,以与 Model-Free 的现有方法相比,在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。
May, 2022
本文研究了网络系统控制中的多智能体强化学习问题,提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明,合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线,而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。
Apr, 2020
提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
多智能体强化学习领域面临再现性危机,本文引入 BenchMARL 作为第一个用于标准化基准测试的训练库,具备高性能和最新技术实现,从而满足多智能体 PyTorch 用户的需求。
Dec, 2023
本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题,这两个算法均为完全去中心化的 Actor-Critic 算法,能够应用于大规模多智能体学习问题中,并在模拟实验中验证了算法的有效性和可收敛性。
Feb, 2018
本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战,此方法相对于单一智能体,其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证,并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法,如 Proximal Policy Optimization 和 Soft Actor-Critic。
Nov, 2022
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024