AgentMixer: 多智能体相关策略分解

Jan, 2024

AgentMixer: Multi-Agent Correlated Policy Factorization

Zhiyuan Li, Wenshuai Zhao, Lijun Wu, Joni Pajarinen

TL;DR通过引入策略修改，构建联合完全可观察策略的非线性组合，以实现分散执行，并联合训练联合策略和个体策略以确保一致性，理论上证明了该方法收敛到一个近似关联均衡，并在三个 MARL 基准上展示了强大的实验表现。

Abstract

centralized training with decentralized execution (CTDE) is widely employed to stabilize partially observable multi-agent reinforcement learning<

centralized training decentralized execution multi-agent reinforcement learning correlated equilibrium individual-global-consistency

发现论文，激发创造

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中？

本文介绍了一种名为 CADP（Centralized Advising and Decentralized Pruning）的框架，解决了现有的 CTDE 框架无法充分利用全局信息的问题，在保证了各个智能体独立策略的同时，通过启用显式的通信渠道，实现了智能体之间的有效信息交流与更加集中的训练，最终在 StarCraft II 和 Google Research Football 等基准测试中取得了优秀的性能表现。

May, 2023

利用转化和蒸馏框架实现合作多智能体强化学习的全局最优

本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题，并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中，相对于基于 PPO 算法的算法具有显著的优越性能。

Jul, 2022

QTRAN：基于变换因式分解的合作多智能体强化学习算法

本文旨在提出一种不受结构约束的因式分解方法 QTRAN，以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明，QTRAN 优于先前的算法，特别是在惩罚非合作行为的游戏中，其优势更为明显。

May, 2019

基于蒸馏执行的个性化多智体强化学习训练

本文提出了一种新的多智能体强化学习范式 (PTDE) ，通过对全局信息进行个性化设置，将个体的全局信息提炼成本地信息，用于分权执行，实现更好的性能，其可与现有的算法结合使用，提高性能。

Oct, 2022

QR-MIX: 合作多智能体强化学习中的分布式价值函数分解

提出了 QR-MIX 模型，通过引入分位数回归来建模联合状态行动值分布，结合 QMIX 和隐式分位数网络，提高了随机性和单调性的容忍度，优于 QMIX。

Sep, 2020

从显式通信到默示合作：一种新的协作多智能体强化学习范式

该研究提出了一种新的训练方法，该方法在训练初期通过共享信息和重构信息来促进智能体之间的合作，随着训练的进行，逐渐过渡到完全去中心化的执行模式，实验结果表明该方法的性能不逊于基于传统通信的方法。

Apr, 2023

Soft-QMIX：整合最大熵用于单调值函数分解

提出了 QMIX 的增强算法，通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法，从而解决 QMIX 的探索策略问题，并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证，并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。

Jun, 2024

分散协作多智能体强化学习的部分调查

多智能体强化学习在最近几年变得非常流行。有许多方法可以将其分为三种主要类型：中心化训练和执行（CTE）、中心化训练分布式执行（CTDE）和分散化训练和执行（DTE）。该论文探讨了这些方法及其应用于合作型多智能体强化学习的相关问题。

May, 2024

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022