多智能体强化学习分解分布式值函数的统一框架
本研究提出分布式价值函数分解(DFAC)框架,将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题,实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。
Feb, 2021
我们提出了一种 MARL 的通用价值函数分解方法 QFree,它基于优势函数开发了 IGM 原则的数学等价条件,并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
Nov, 2023
本篇论文提出了 PAC 框架,其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss,此框架考虑到局部顺序对表征函数造成的约束并解决了该限制,同时采用基于变分推断的信息编码方法以收集并编码来自基线的反事实预测,并推导出针对每个代理的分解策略,最后在多智能体捕食 - 逃生和一组 StarCraft II 微观管理任务中验证了 PAC 的有效性。
Jun, 2022
本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家,并提出了多智能体条件策略分解 (MACPF) 的方法,以更好地实现部分可观察环境下的学习。同时,通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。
Sep, 2022
通过使用层次相关传播,我们将联合价值函数的学习与本地奖励信号的生成分开,提出了一个新的合作多智能体增强学习算法:相关分解网络。我们发现,尽管 VDN 和 Qmix 的性能会随着冗余智能体数目的增加而降低,但 RDN 则不受影响。
Mar, 2023
该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架,包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX,能够优于当前最先进方法,可用于 StarCraft II 多智能体挑战基准测试中,同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。
Oct, 2020
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及 MARL 在真实世界应用中的成功,并提供了可用于 MARL 研究的环境列表和可能的研究方向。
Aug, 2019
该论文提出了一种新的学习范式,即分解学习控制策略使其在实现多个动作时只需要执行一个动作,从而取得了显著的性能提升,特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。
May, 2017
本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题,这种方法使用图的结构描述不同类型的多智能体之间的关系,并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法,能够在保证有效性的前提下,大幅减少采样复杂性。
Feb, 2022
本文介绍了一种名为 REFIL 的方法,能够在多个具有不同类型和数量的代理和非代理实体的任务中发现共性,从而提高多任务环境下的学习效率,并在挑战性的多任务 StarCraft 微管理环境中显著优于所有强基线。
Jun, 2020