独立学习是否足以应对StarCraft多智能体挑战?
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本设计章介绍了 StarCraft Multi-Agent Challenge (SMAC) 作为实验问题,正式本测试环境可以提供一个标准的测试环境,并对deep multi-agent reinforcement learning 、partially observable cooperative multi-agent learning、单个传感器规则 等领域进行询问和分析。
Feb, 2019
QMIX是一种新的价值方法,可以在集中端到端的方式下训练分散的策略,通过使用混合网络来估计联合行动价值,并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性,并在 StarCraft 多智能体挑战赛(SMAC)中获得了显著的优越性。
Mar, 2020
本研究通过四个流行的多智能体测试环境,证明了基于 PPO 的多智能体算法表现出令人惊讶的性能,并降低了样本复杂度,显示出它可以成为协同多智能体强化学习中的强基线方法。
Mar, 2021
本研究讨论无集中式组分和显式通讯的分布式多智能体学习,研究表明分布式匹配技术可用于协调独立智能体之间的协作,开发了一种实用的基于样本轨迹的算法(DM^2),已在StarCraft领域验证。
Jun, 2022
本文提出了一个叫做SMAC + 的新型基准,该基准旨在探索MARL算法在StarCraft遊戲中学习隐含的多阶段任务、环境因素和微控制的能力。在攻击和防御场景中,该基准要求智能体进行多方面探索,进一步提高算法的探索能力。研究结果表明,近年来的一些算法在该基准中表现良好,但在攻击场景方面表现不佳,为未来的研究提供了新的方向。
Jul, 2022
为了解决现有多智能体PPO算法在扩展PPO的理论保证到合作多智能体强化学习时的不兼容性问题,本文提出了一种新颖且多功能的多智能体PPO算法。该算法基于全流水线范例,通过采用不同的优势函数等效分解建立多个并行优化流水线,成功地更一般地形式化了个体之间的相互关联,使其与各种参数共享类型兼容。我们为策略改进提供了坚实的理论基础,并进一步通过多种近似方法开发了一种实用算法称为Full-Pipeline PPO(FP3O)。对Multi-Agent MuJoCo和StarCraftII任务的实证评估表明,FP3O胜过其他强基准,并在各种参数共享配置上表现出显著的多功能性。
Oct, 2023
多智能体系统中,代理人之间的通信对于加强协调至关重要。本研究提出了一种多智能体协调的方法,其中每个代理人具备将其观察、行动和接收到的信息整合到一个公共操作图中并传播的能力。实验结果表明,与最先进的多智能体强化学习方法相比,基于公共操作图的训练方法在面对分布不均的初始状态时能够产生出鲁棒的策略。
Nov, 2023