高效的多智能体强化学习规划

ICLRMay, 2024

Efficient Multi-agent Reinforcement Learning by Planning

Qihan Liu, Jianing Ye, Xiaoteng Ma, Jun Yang, Bin Liang...

TL;DR多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。

Abstract

multi-agent reinforcement learning (MARL) algorithms have accomplished remarkable breakthroughs in solving large-scale decision-making tasks. Nonetheless, most existing MARL algorithms are model-free, limiting sample efficiency and hindering their applicability in more challenging scen

multi-agent reinforcement learning model-based reinforcement learning muzero mazero sample efficiency

发现论文，激发创造

基于模型的多智能体强化学习在零和 Markov 博弈中的近似最优样本复杂度

本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度，通过两人零和马尔科夫博弈问题的研究发现，此种算法的样本复杂度为大 O （SA（1-γ）-3ε-2）, 优于其他方法，但其依赖于动作空间大小，存在一定局限性。

Jul, 2020

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

基于模型的多智能体强化学习：最新进展和前景展望

本文回顾了现有的关于基于模型的多智能体强化学习的研究，包括理论分析、算法和应用，并分析了基于模型的多智能体强化学习的优势和潜力。此外，我们提供了算法的详细分类，并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后，我们总结了这一领域未来发展的有前途的方向。

Mar, 2022

改进分散式多智能体强化学习的无模型算法

本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象，提出了一些去中心化的学习算法，并在几个关键的方面上做了优化，同时通过数值仿真验证我们理论的有效性。

Oct, 2021

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

高效的样本有效的多智能体强化学习：优化视角

我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量，即多智能体解耦系数 (MADC)，我们旨在找到基于样本高效学习的最小假设。利用该度量，我们提出了首个统一的算法框架，可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外，我们还展示了与现有工作相比，我们的算法提供了可比较的次线性遗憾。此外，我们的算法结合了一个均衡求解器和一个单一目标优化次程序，用于求解每个确定性联合策略的正则化收益，从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023)，或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程，因此更适合于实证实现。

Oct, 2023

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

零和马尔可夫博弈中政策优化的更快收敛

本文提出了一种基于 OMWU 方法的单环路政策优化算法，并在二人零和马尔可夫博弈中，通过控制正则化的程度，实现了有限时间的最后一次线性收敛到达量子响应均衡点，并在全信息离散设置中实现了收敛结果。

Oct, 2022

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

多智能体强化学习的速度性能表征

通过加速角度对多智能体强化学习算法进行分类，并对三个最先进的算法进行性能瓶颈分析，从而提出了多智能体强化学习的延时受限吞吐量作为关键性能指标。

Sep, 2023