合作智能体的政策多样性
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。
Jun, 2021
本文提出了一种条件推理方法,以解决多智能体协作任务中的高级行为空间集中控制和梯度获取问题,并在代表性的基于选项的多智能体协作任务上验证了其有效性。
Mar, 2022
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的Q函数通过局部化的Q网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多MARL测试床上表现良好的PG方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及StarCraft多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的MARL算法的社区带来益处。
Jun, 2022
通过量化角色多样性作为度量多智能体任务特征的因素,我们发现,MARL中的误差限可以分解为3个部分,并且这些分解因素对3个热门方向的政策优化具有显著影响,通过MPE和SMAC平台的实验验证,角色多样性可以作为多智能体协作任务特征的强劲度量,并帮助诊断政策是否适合当前的多智能体系统以实现更好的性能。
Jun, 2022
本文提出了一种名为TAD的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题,并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中,相对于基于 PPO 算法的算法具有显著的优越性能。
Jul, 2022
本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法,建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性,通过可微的有向无环图,实现了动态学习具有背景感知能力的贝叶斯网络策略,并在多个MARL基准测试中获得了改进。
Jun, 2023
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏Hanabi的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新的零样本协同算法Off-Belief Learning(OBL)相比,在适应性上表现相似。这一发现引发了一个有趣的研究问题:如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用,我们的实验表明,控制训练数据多样性和优化过程的两类超参数对Hanabi代理的适应性具有重要影响。
Aug, 2023
多样性在提高多智能体强化学习(MARL)性能方面起着关键作用,本文提出了一种通用的量化智能体政策差异的工具,多智能体政策距离(MAPD),并通过在线部署设计了一个多智能体动态参数共享(MADPS)算法来应用该工具。实验证明,我们的方法在衡量智能体政策差异和特定行为倾向方面是有效的,并且相比其他参数共享方法,MADPS表现出更优越的性能。
Jan, 2024
多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为DiCo的多样性控制方法,通过在策略架构中应用约束,能够在不改变学习目标的情况下精确控制多样性,从而增加多智能体强化学习算法的性能和样本利用率。
May, 2024