共享多智能体强化学习中的多样性庆祝
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式MarL框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明LToS在社会困境和网络MARL的情景下都优于现有方法。
Dec, 2021
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的Q函数通过局部化的Q网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多MARL测试床上表现良好的PG方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及StarCraft多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的MARL算法的社区带来益处。
Jun, 2022
本文提出了一种基于结构剪枝的深度神经网络方法,旨在增加联合策略的表示能力从而在多智能体强化学习中减少共享参数对不同行为任务的性能影响。多项基准测试表明所提方法相比共享参数方法具有显著的提高。
Mar, 2023
多样性在提高多智能体强化学习(MARL)性能方面起着关键作用,本文提出了一种通用的量化智能体政策差异的工具,多智能体政策距离(MAPD),并通过在线部署设计了一个多智能体动态参数共享(MADPS)算法来应用该工具。实验证明,我们的方法在衡量智能体政策差异和特定行为倾向方面是有效的,并且相比其他参数共享方法,MADPS表现出更优越的性能。
Jan, 2024
合作多智能体强化学习是一个在过去五年中越来越重要的研究主题,因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架MARL-LNS,通过在交替的智能体子集上进行训练,并使用现有的深度MARL算法作为底层训练器来解决维度灾难的问题,而不需要额外的参数进行训练。基于该框架,我们提供了三种算法变种:随机大邻域搜索(RLNS),批量大邻域搜索(BLNS)和自适应大邻域搜索(ALNS),这些算法以不同的方式交替使用智能体子集。我们在StarCraft Multi-Agent Challenge和Google Research Football上测试了我们的算法,并证明我们的算法可以自动减少至少10%的训练时间,同时达到与原始算法相同的最终技能水平。
Apr, 2024
多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为DiCo的多样性控制方法,通过在策略架构中应用约束,能够在不改变学习目标的情况下精确控制多样性,从而增加多智能体强化学习算法的性能和样本利用率。
May, 2024