本文提出 Multi-Agent RLlib (MARLlib),即一套多智能体强化学习算法库,通过使用新型的基于智能体的分布式数据流设计,成功地统一了数十种算法,包括不同类型的独立学习、集中式批判家和价值分解方法,提供了灵活的参数共享策略和多样的环境接口,为解决各种合作、竞争和混合任务问题提供了一站式的解决方案。
Oct, 2022
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法(独立学习、集中式多智能体策略梯度、价值分解)在多样化的合作多智能体学习任务中的表现,为算法在不同学习任务中的预期性能提供参考,并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL,延伸了 PyMARL 代码库以包括其他算法,并允许对算法实现细节进行灵活配置,例如参数共享。最后,我们还开源了两个多智能体研究的环境,重点是在稀疏奖励下的协调。
Jun, 2020
本文介绍了一个名为 MABIM 的多代理数据集。作者使用该数据集对一些方法在多商品多层次库存管理问题的性能进行了评估,并探讨了多益智智能算法在实际行业中的应用。
Jun, 2023
确立良好的实验标准和严谨性对于任何不断发展的研究领域都非常重要。深度多智能体强化学习是一个新兴的研究领域,虽然取得了令人激动的进展,但近期在合作设置方面,它受到了可复制性问题和缺乏标准化评估方法的质疑。尽管已经提出了一些协议来缓解这个问题,但积极监测该领域的健康状况仍然非常重要。本研究通过扩展之前已发表的评估方法数据库,包含了来自顶级会议的深度多智能体强化学习出版物的元数据,并将从此更新的数据库中提取到的结果与其工作中的趋势进行比较。我们的分析表明,许多性能报告方面令人担忧的趋势仍然存在,包括不报告不确定性量化、未报告所有相关评估细节和算法开发类别的狭窄。值得期望的是,我们观察到 SMAC-v1 中更困难场景的趋势,如果这一趋势延续到 SMAC-v2,将鼓励新颖的算法开发。我们的数据表明,多智能体强化学习社区需要更加积极地面对可复制性,以确保在我们迈向令人激动的新领域时对该领域的信任。
Dec, 2023
此研究论文利用 JAX 实现的开源代码库 JaxMARL,通过 GPU 加速以及更灵活的环境设计,提供了高效且全面的多智能体强化学习训练框架,有效应对了计算负担、样本复杂性等挑战。
Nov, 2023
本篇论文通过元分析探究了近年来多智能体强化学习中合作场景下的评价方法,并提出了一个标准化的性能评估协议以提高未来相关研究的可信度与可复现性。
Sep, 2022
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
通过加速角度对多智能体强化学习算法进行分类,并对三个最先进的算法进行性能瓶颈分析,从而提出了多智能体强化学习的延时受限吞吐量作为关键性能指标。
Sep, 2023
本文为了推动模型基强化学习(Model-based Reinforcement Learning, MBRL)的研究,收集了大量 MBRL 算法,并提出了 18 个为 MBRL 特别设计的基准环境来评估这些算法,并探讨了 MBRL 算法之间的主要差异和研究挑战。
Jul, 2019