多智能体强化学习的策略距离测量
通过量化角色多样性作为度量多智能体任务特征的因素,我们发现,MARL 中的误差限可以分解为 3 个部分,并且这些分解因素对 3 个热门方向的政策优化具有显著影响,通过 MPE 和 SMAC 平台的实验验证,角色多样性可以作为多智能体协作任务特征的强劲度量,并帮助诊断政策是否适合当前的多智能体系统以实现更好的性能。
Jun, 2022
标准的多智能体强化学习方法旨在找到完成任务的最优团队合作策略。然而,在不同的合作方式中可能存在多种选择,这往往极大地增加了领域专家的任务复杂性。因此,我们提出了一种名为 Moment-Matching Policy Diversity 的方法,该方法通过形式化不同策略所选智能体的行为差异来生成不同的团队策略。理论上,我们证明了该方法是通过使用最大均值差异来实现约束优化问题的简单方式。我们的方法的有效性在一个具有挑战性的基于团队的射击游戏中得到了验证。
Aug, 2023
多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为 DiCo 的多样性控制方法,通过在策略架构中应用约束,能够在不改变学习目标的情况下精确控制多样性,从而增加多智能体强化学习算法的性能和样本利用率。
May, 2024
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
Mar, 2019
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。
Jun, 2021
基于多样性的强化学习在问题优化与策略发现方面面临基本挑战。该研究通过引入状态空间距离信息和优化计算框架,开发了一种新的多样性驱动的强化学习算法 SIPO,实现了对多个领域的多样性和人类可解释的策略的持续发现。
Oct, 2023
本文使用基于梯度的优化技术,旨在找到不同行为的多样化的性能良好的策略集,在强化学习方法中,鉴别近似最优策略集的重要性被正式化和研究,并在基准测试和医疗保健任务中展示了应用效果。
May, 2019
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
本文提出了一种新颖的多智能体强化学习方法,即多智能体连续动态策略梯度(MACDPP),用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构,缓解了多个智能体策略更新的不一致性。通过多智能体协作和竞争任务以及传统控制任务,包括 OpenAI 基准和机械臂操纵,评估了 MACDPP 在学习能力和样本效率方面相对于相关的多智能体和广泛实施的信号 - 智能体基准的显著优越性,从而扩展了多智能体强化学习在有效学习具有挑战性的控制场景中的潜力。
Sep, 2023
本文介绍了一种基于行为多样性的优化方法,该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积,并通过在线学习技术适应多样性程度,从而提高探索能力,而不会降低性能。
Feb, 2020