SMACv2:用于协作多智能体强化学习的改进基准
本设计章介绍了 StarCraft Multi-Agent Challenge (SMAC) 作为实验问题,正式本测试环境可以提供一个标准的测试环境,并对 deep multi-agent reinforcement learning 、partially observable cooperative multi-agent learning、单个传感器规则 等领域进行询问和分析。
Feb, 2019
引入 SMAClite,基于 SMAC 但从 Starcraft II 中解耦并开源,通过实验表明 SMAClite 在训练 MARL 算法时与 SMAC 等效且在运行时速度和占用内存方面优于 SMAC。
May, 2023
本文提出了一个叫做 SMAC + 的新型基准,该基准旨在探索 MARL 算法在 StarCraft 遊戲中学习隐含的多阶段任务、环境因素和微控制的能力。在攻击和防御场景中,该基准要求智能体进行多方面探索,进一步提高算法的探索能力。研究结果表明,近年来的一些算法在该基准中表现良好,但在攻击场景方面表现不佳,为未来的研究提供了新的方向。
Jul, 2022
本研究通过使用一系列强化学习技术,包括层次化体系结构、课程转移学习和战斗模型等方法,在 StarCraft II 游戏上进行了训练,并获得了高胜率。我们还将我们的方法与 mini-AlphaStar 进行比较,证明了该方法的有效性。
Sep, 2022
这篇论文在 StarCraft II 这个具有挑战性的强化学习环境中,利用大量的离线数据集和机器学习方法,建立了一个新的基准 AlphaStar Unplugged,提出了离线强化学习的前沿技术,并且取得了 90% 的胜率。
Aug, 2023
本文介绍了基于深度强化学习的智能体 StarCraft Commander (SCC),通过优化效率和以少量复杂度达到媲美 GM 级水平及击败职业玩家的成果,为进一步在复杂即时策略游戏方向探究提供了可能与展望。该成果对应用深度学习模型进行模仿学习和强化学习进行了关键分析和优化。
Dec, 2020
本研究调查 QMIX 算法的代码级优化和单调性约束,揭示代码级优化对 QMIX 算法改进的显著影响,并发现在纯协作任务中,单调性约束可以提高样本效率和性能。
Feb, 2021
确立良好的实验标准和严谨性对于任何不断发展的研究领域都非常重要。深度多智能体强化学习是一个新兴的研究领域,虽然取得了令人激动的进展,但近期在合作设置方面,它受到了可复制性问题和缺乏标准化评估方法的质疑。尽管已经提出了一些协议来缓解这个问题,但积极监测该领域的健康状况仍然非常重要。本研究通过扩展之前已发表的评估方法数据库,包含了来自顶级会议的深度多智能体强化学习出版物的元数据,并将从此更新的数据库中提取到的结果与其工作中的趋势进行比较。我们的分析表明,许多性能报告方面令人担忧的趋势仍然存在,包括不报告不确定性量化、未报告所有相关评估细节和算法开发类别的狭窄。值得期望的是,我们观察到 SMAC-v1 中更困难场景的趋势,如果这一趋势延续到 SMAC-v2,将鼓励新颖的算法开发。我们的数据表明,多智能体强化学习社区需要更加积极地面对可复制性,以确保在我们迈向令人激动的新领域时对该领域的信任。
Dec, 2023
本文提出了一种新的分解式多智能体软演员 - 批评家(mSAC)方法,在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。
Apr, 2021