独立学习是否足以应对StarCraft多智能体挑战？

Nov, 2020

独立学习是否足以应对StarCraft多智能体挑战？

Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge?

Christian Schroeder de Witt, Tarun Gupta, Denys Makoviichuk, Viktor Makoviychuk, Philip H. S. Torr...

TL;DR本文比较了协作多智能体强化学习中的独立学习方法和联合学习方法在 SMAC 测试套件中的性能差异，发现在一些情况下，独立学习方法可以像联合学习方法一样表现出色，并且更具有适应性。

Abstract

Most recently developed approaches to cooperative multi-agent reinforcement learning in the \emph{centralized training with decentralized execution} setting involve estimating a centralized, joint value function.

发现论文，激发创造

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

星际争霸多智能体挑战赛

本设计章介绍了 StarCraft Multi-Agent Challenge (SMAC) 作为实验问题，正式本测试环境可以提供一个标准的测试环境，并对deep multi-agent reinforcement learning 、partially observable cooperative multi-agent learning、单个传感器规则等领域进行询问和分析。

Feb, 2019

深度多智能体强化学习的单调价值函数分解

QMIX是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

PPO在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

DM$^2$: 分布匹配的去中心化多智能体强化学习

本研究讨论无集中式组分和显式通讯的分布式多智能体学习，研究表明分布式匹配技术可用于协调独立智能体之间的协作，开发了一种实用的基于样本轨迹的算法（DM^2），已在StarCraft领域验证。

Jun, 2022

StarCraft多智能体挑战+: 在没有精确奖励函数的情况下学习多阶段任务和环境因素

本文提出了一个叫做SMAC + 的新型基准，该基准旨在探索MARL算法在StarCraft遊戲中学习隐含的多阶段任务、环境因素和微控制的能力。在攻击和防御场景中，该基准要求智能体进行多方面探索，进一步提高算法的探索能力。研究结果表明，近年来的一些算法在该基准中表现良好，但在攻击场景方面表现不佳，为未来的研究提供了新的方向。

Jul, 2022

SMACv2：用于协作多智能体强化学习的改进基准

通过引入新版本的基准测试SMACv2，可以解决SMAC不足的问题并促进多智能体强化学习(MARL)算法的发展。

Dec, 2022

FP3O: 多智能体合作中的参数共享灵活性下 Proximal Policy Optimization 的实现

为了解决现有多智能体PPO算法在扩展PPO的理论保证到合作多智能体强化学习时的不兼容性问题，本文提出了一种新颖且多功能的多智能体PPO算法。该算法基于全流水线范例，通过采用不同的优势函数等效分解建立多个并行优化流水线，成功地更一般地形式化了个体之间的相互关联，使其与各种参数共享类型兼容。我们为策略改进提供了坚实的理论基础，并进一步通过多种近似方法开发了一种实用算法称为Full-Pipeline PPO（FP3O）。对Multi-Agent MuJoCo和StarCraftII任务的实证评估表明，FP3O胜过其他强基准，并在各种参数共享配置上表现出显著的多功能性。

Oct, 2023

通过公共操作图整合增强多智能体协作能力

多智能体系统中，代理人之间的通信对于加强协调至关重要。本研究提出了一种多智能体协调的方法，其中每个代理人具备将其观察、行动和接收到的信息整合到一个公共操作图中并传播的能力。实验结果表明，与最先进的多智能体强化学习方法相比，基于公共操作图的训练方法在面对分布不均的初始状态时能够产生出鲁棒的策略。

Nov, 2023

完全去中心化的合作多智能体强化学习：调查

该论文系统地回顾了两种全面分散设置下的全面分散方法，即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和，并讨论了未来研究方向。

Jan, 2024