集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中？

May, 2023

集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中？

Is Centralized Training with Decentralized Execution Framework Centralized Enough for MARL?

Yihe Zhou, Shunyu Liu, Yunpeng Qing, Kaixuan Chen, Tongya Zheng...

TL;DR本文介绍了一种名为CADP（Centralized Advising and Decentralized Pruning）的框架，解决了现有的CTDE框架无法充分利用全局信息的问题，在保证了各个智能体独立策略的同时，通过启用显式的通信渠道，实现了智能体之间的有效信息交流与更加集中的训练，最终在StarCraft II和Google Research Football等基准测试中取得了优秀的性能表现。

Abstract

centralized training with decentralized execution (CTDE) has recently emerged as a popular framework for cooperative multi-agent reinforcement le

发现论文，激发创造

多智能体强化学习中集中式与分散式评论员的对比

本论文分析了中央化和去中央化的评分员方法，旨在提供评分员选择的更深层次理解并阐述算法设计者应考虑到评分员方法的优缺点。

Feb, 2021

利用中央化训练的近期多智能体强化学习算法调查

为了实现人类般的协作，大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里，我们讨论了集中式训练的变化，并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。

Jul, 2021

均场多智体强化学习：一种分散网络方法

提出了基于LTDE-Neural-AC和演员-评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

评估多智能体强化学习在不同智能体数量下的泛化和转移能力

本研究采用集中式训练和分散式执行的范式来评估多智能体强化学习模型的推广和转移能力，结果表明通过使用更少的智能体进行训练可以获得类似或更高的评估性能。

Nov, 2021

利用转化和蒸馏框架实现合作多智能体强化学习的全局最优

本文提出了一种名为TAD的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题，并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中，相对于基于 PPO 算法的算法具有显著的优越性能。

Jul, 2022

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员-评论家, 并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作MARL任务中进行实验证明MACPF相对于基线的表现更优。

Sep, 2022

从显式通信到默示合作：一种新的协作多智能体强化学习范式

该研究提出了一种新的训练方法，该方法在训练初期通过共享信息和重构信息来促进智能体之间的合作，随着训练的进行，逐渐过渡到完全去中心化的执行模式，实验结果表明该方法的性能不逊于基于传统通信的方法。

Apr, 2023

分散协作多智能体强化学习的部分调查

多智能体强化学习在最近几年变得非常流行。有许多方法可以将其分为三种主要类型：中心化训练和执行（CTE）、中心化训练分布式执行（CTDE）和分散化训练和执行（DTE）。该论文探讨了这些方法及其应用于合作型多智能体强化学习的相关问题。

May, 2024

多智能体强化学习中的集中式评论员研究

本研究解决了多智能体强化学习中集中式评论员方法未被充分理论和经验分析的问题。论文提出了相反于常识的见解，指出集中评论员并不总是有利，且状态值评论员可能会引入意外的偏差与方差。研究的结果表明，评论员的选择对学习过程有显著影响，强调了在部分可观察环境中表现学习的挑战。

Aug, 2024

集中训练与分散执行在合作多智能体强化学习中的介绍

本文研究了合作多智能体强化学习中的集中训练与分散执行（CTDE）方法，解决了现有方法在执行时需依赖本地信息的问题。通过介绍CTDE的基本概念和常用方法，强调其在合作场景中的自然适用性，本文的核心发现是CTDE可以在不需要执行阶段通信的情况下，提升智能体的可扩展性和性能。

Sep, 2024