可伸缩的多智能体模型基强化学习

May, 2022

可伸缩的多智能体模型基强化学习

Scalable Multi-Agent Model-Based Reinforcement Learning

Vladimir Egorov, Aleksei Shpilman

TL;DR本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

Abstract

Recent multi-agent reinforcement learning (MARL) literature has been largely focused on centralized training with decentralized execution (CTDE) paradigm. CTDE has been a dominant approach for both cooperative an

multi-agent reinforcement learning centralized training with decentralized execution communication methods model-based reinforcement learning sample efficient algorithm

发现论文，激发创造

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

利用中央化训练的近期多智能体强化学习算法调查

为了实现人类般的协作，大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里，我们讨论了集中式训练的变化，并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。

Jul, 2021

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

基于模型的多智能体强化学习：最新进展和前景展望

本文回顾了现有的关于基于模型的多智能体强化学习的研究，包括理论分析、算法和应用，并分析了基于模型的多智能体强化学习的优势和潜力。此外，我们提供了算法的详细分类，并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后，我们总结了这一领域未来发展的有前途的方向。

Mar, 2022

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

协作多智能体强化学习的高效分布式框架

本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架，在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。

May, 2022

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

合作多智能体任务中的奖励机器学习

本文提出了一种新的多智能体强化学习方法，该方法将合作任务分解与学习奖励机器相结合，以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质，并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习，然后用于指导每个智能体的行为，从而减少了合作多智能体问题的复杂性，更有效的学习。结果表明，我们的方法是未来 MARL 研究的一个有前景的方向，特别是在具有大状态空间和多个智能体的复杂环境中。

Mar, 2023