SMACv2：用于协作多智能体强化学习的改进基准

Dec, 2022

SMACv2：用于协作多智能体强化学习的改进基准

SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning

Benjamin Ellis, Skander Moalla, Mikayel Samvelyan, Mingfei Sun, Anuj Mahajan...

TL;DR通过引入新版本的基准测试 SMACv2，可以解决 SMAC 不足的问题并促进多智能体强化学习 (MARL) 算法的发展。

Abstract

The availability of challenging benchmarks has played a key role in the recent progress of machine learning. In cooperative multi-agent reinforcement learning, the StarCraft Multi-Agent Challenge (smac) has becom

machine learning reinforcement learning benchmark smac closed-loop policies

发现论文，激发创造

星际争霸多智能体挑战赛

本设计章介绍了 StarCraft Multi-Agent Challenge (SMAC) 作为实验问题，正式本测试环境可以提供一个标准的测试环境，并对 deep multi-agent reinforcement learning 、partially observable cooperative multi-agent learning、单个传感器规则等领域进行询问和分析。

Feb, 2019

SMAClite：多智能体强化学习轻量级环境

引入 SMAClite，基于 SMAC 但从 Starcraft II 中解耦并开源，通过实验表明 SMAClite 在训练 MARL 算法时与 SMAC 等效且在运行时速度和占用内存方面优于 SMAC。

May, 2023

StarCraft 多智能体挑战 +: 在没有精确奖励函数的情况下学习多阶段任务和环境因素

本文提出了一个叫做 SMAC + 的新型基准，该基准旨在探索 MARL 算法在 StarCraft 遊戲中学习隐含的多阶段任务、环境因素和微控制的能力。在攻击和防御场景中，该基准要求智能体进行多方面探索，进一步提高算法的探索能力。研究结果表明，近年来的一些算法在该基准中表现良好，但在攻击场景方面表现不佳，为未来的研究提供了新的方向。

Jul, 2022

关于《星际争霸 Ⅱ》全游戏的高效强化学习研究

本研究通过使用一系列强化学习技术，包括层次化体系结构、课程转移学习和战斗模型等方法，在 StarCraft II 游戏上进行了训练，并获得了高胜率。我们还将我们的方法与 mini-AlphaStar 进行比较，证明了该方法的有效性。

Sep, 2022

AlphaStar Unplugged：大规模离线强化学习

这篇论文在 StarCraft II 这个具有挑战性的强化学习环境中，利用大量的离线数据集和机器学习方法，建立了一个新的基准 AlphaStar Unplugged，提出了离线强化学习的前沿技术，并且取得了 90% 的胜率。

Aug, 2023

SCC：高效深度强化学习游戏代理掌握星际争霸 II

本文介绍了基于深度强化学习的智能体 StarCraft Commander (SCC)，通过优化效率和以少量复杂度达到媲美 GM 级水平及击败职业玩家的成果，为进一步在复杂即时策略游戏方向探究提供了可能与展望。该成果对应用深度学习模型进行模仿学习和强化学习进行了关键分析和优化。

Dec, 2020

合作多智能体强化学习中实现技巧和单调性约束的反思

本研究调查 QMIX 算法的代码级优化和单调性约束，揭示代码级优化对 QMIX 算法改进的显著影响，并发现在纯协作任务中，单调性约束可以提高样本效率和性能。

Feb, 2021

一年间能发生多大变化？重新审视多智能体强化学习中的评估

确立良好的实验标准和严谨性对于任何不断发展的研究领域都非常重要。深度多智能体强化学习是一个新兴的研究领域，虽然取得了令人激动的进展，但近期在合作设置方面，它受到了可复制性问题和缺乏标准化评估方法的质疑。尽管已经提出了一些协议来缓解这个问题，但积极监测该领域的健康状况仍然非常重要。本研究通过扩展之前已发表的评估方法数据库，包含了来自顶级会议的深度多智能体强化学习出版物的元数据，并将从此更新的数据库中提取到的结果与其工作中的趋势进行比较。我们的分析表明，许多性能报告方面令人担忧的趋势仍然存在，包括不报告不确定性量化、未报告所有相关评估细节和算法开发类别的狭窄。值得期望的是，我们观察到 SMAC-v1 中更困难场景的趋势，如果这一趋势延续到 SMAC-v2，将鼓励新颖的算法开发。我们的数据表明，多智能体强化学习社区需要更加积极地面对可复制性，以确保在我们迈向令人激动的新领域时对该领域的信任。

Dec, 2023

星际争霸 II：强化学习的新挑战

介绍了一种基于《星际争霸 II》游戏的增强学习环境 SC2LE，通过使用该环境，可以探索深度强化学习算法和架构。

Aug, 2017

分解 Soft Actor-Critic 方法用于合作多智体强化学习

本文提出了一种新的分解式多智能体软演员 - 批评家（mSAC）方法，在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。

Apr, 2021