多智能体强化学习的策略距离测量
本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法(独立学习、集中式多智能体策略梯度、价值分解)在多样化的合作多智能体学习任务中的表现,为算法在不同学习任务中的预期性能提供参考,并提供了有关不同学习方法有效性的见解。我们开源了EPyMARL,延伸了PyMARL代码库以包括其他算法,并允许对算法实现细节进行灵活配置,例如参数共享。最后,我们还开源了两个多智能体研究的环境,重点是在稀疏奖励下的协调。
Jun, 2020
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。
Jun, 2021
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的Q函数通过局部化的Q网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多MARL测试床上表现良好的PG方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及StarCraft多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的MARL算法的社区带来益处。
Jun, 2022
通过量化角色多样性作为度量多智能体任务特征的因素,我们发现,MARL中的误差限可以分解为3个部分,并且这些分解因素对3个热门方向的政策优化具有显著影响,通过MPE和SMAC平台的实验验证,角色多样性可以作为多智能体协作任务特征的强劲度量,并帮助诊断政策是否适合当前的多智能体系统以实现更好的性能。
Jun, 2022
本论文研究了多智能体系统的行为异质性问题,提出了一种名为System Neural Diversity(SND)的度量方法,通过对多智能体系统的模拟实验,证明了SND在评估系统韧性和稳健性方面的重要性。
May, 2023
标准的多智能体强化学习方法旨在找到完成任务的最优团队合作策略。然而,在不同的合作方式中可能存在多种选择,这往往极大地增加了领域专家的任务复杂性。因此,我们提出了一种名为Moment-Matching Policy Diversity的方法,该方法通过形式化不同策略所选智能体的行为差异来生成不同的团队策略。理论上,我们证明了该方法是通过使用最大均值差异来实现约束优化问题的简单方式。我们的方法的有效性在一个具有挑战性的基于团队的射击游戏中得到了验证。
Aug, 2023
基于多样性的强化学习在问题优化与策略发现方面面临基本挑战。该研究通过引入状态空间距离信息和优化计算框架,开发了一种新的多样性驱动的强化学习算法 SIPO,实现了对多个领域的多样性和人类可解释的策略的持续发现。
Oct, 2023
合作多智能体强化学习中个体代理的贡献度一直是一项具有挑战性的任务,而本文提出的Agent Importance方法通过计算个体代理的贡献度,其计算复杂度相对于代理数量呈线性增长,能够有效代替耗时的Shapley values方法。实证结果表明Agent Importance与真实的Shapley values及底层个体代理奖励具有较强相关性,并且可用于诊断多智能体强化学习系统中的算法失败情况,从而作为未来强化学习基准测试的一个有价值的可解释性组成部分。
Dec, 2023
我们提出了一种新颖的参数共享方法,通过将每种类型的代理映射到共享网络中的不同区域,基于它们的身份,形成不同的子网络,从而增加了不同代理之间的策略多样性,而不引入额外的训练参数,通过在多个环境中进行的实验证明,我们的方法表现优于其他参数共享方法。
Dec, 2023
多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为DiCo的多样性控制方法,通过在策略架构中应用约束,能够在不改变学习目标的情况下精确控制多样性,从而增加多智能体强化学习算法的性能和样本利用率。
May, 2024