JaxMARL:基于 JAX 的多智能体强化学习环境
多智能体强化学习领域面临再现性危机,本文引入 BenchMARL 作为第一个用于标准化基准测试的训练库,具备高性能和最新技术实现,从而满足多智能体 PyTorch 用户的需求。
Dec, 2023
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战,此方法相对于单一智能体,其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证,并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法,如 Proximal Policy Optimization 和 Soft Actor-Critic。
Nov, 2022
本研究通过在 Lux AI v2 Kaggle 比赛中应用 RL,使用一种集中式方法来训练 RL 代理,并报告了沿途的多个设计决策,以控制多种类型的变量大小编队群,从而解决多优化问题。
Apr, 2023
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
合作多智能体强化学习是一个在过去五年中越来越重要的研究主题,因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架 MARL-LNS,通过在交替的智能体子集上进行训练,并使用现有的深度 MARL 算法作为底层训练器来解决维度灾难的问题,而不需要额外的参数进行训练。基于该框架,我们提供了三种算法变种:随机大邻域搜索(RLNS),批量大邻域搜索(BLNS)和自适应大邻域搜索(ALNS),这些算法以不同的方式交替使用智能体子集。我们在 StarCraft Multi-Agent Challenge 和 Google Research Football 上测试了我们的算法,并证明我们的算法可以自动减少至少 10%的训练时间,同时达到与原始算法相同的最终技能水平。
Apr, 2024
本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法(独立学习、集中式多智能体策略梯度、价值分解)在多样化的合作多智能体学习任务中的表现,为算法在不同学习任务中的预期性能提供参考,并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL,延伸了 PyMARL 代码库以包括其他算法,并允许对算法实现细节进行灵活配置,例如参数共享。最后,我们还开源了两个多智能体研究的环境,重点是在稀疏奖励下的协调。
Jun, 2020
我们介绍了 IMP-MARL,它是一个开源的多智能体强化学习环境套件,用于大规模基础设施管理规划,它为协作 MARL 方法在实际工程应用中的可伸缩性提供了一个基准平台。
Jun, 2023
本文介绍了一个名为 MABIM 的多代理数据集。作者使用该数据集对一些方法在多商品多层次库存管理问题的性能进行了评估,并探讨了多益智智能算法在实际行业中的应用。
Jun, 2023