TransfQMix: 利用多智能体强化学习问题的图形结构的 Transformer
为了解决多智能体强化学习中的可扩展性和非稳态性问题,我们提出了一种新的多智能体世界模型,通过学习分散的局部动力学来实现可扩展性,并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的解决方案,通过 Transformer 体系结构对复杂的局部动力学进行建模,从而提供准确而一致的长期想象。在 Starcraft Multi-Agent Challenge(SMAC)上的结果显示,该模型在样本效率和整体性能方面优于强化学习和现有的基于模型的方法。
Jun, 2024
Coordinated QMIX (CoMIX) is a training framework for decentralized agents that enables emergent coordination through flexible policies, improving coordination in multi-agent systems.
Aug, 2023
在合作多智能体强化学习中,有效的智能体协调至关重要。为了解决现有方法中对历史经验的忽视和稠密图计算的可扩展性问题,我们提出了一种基于潜在时间稀疏协调图的多智能体强化学习方法。该方法利用智能体的历史观测计算智能体对概率矩阵,并基于此矩阵生成稀疏图,以促进智能体之间的知识交流,同时捕捉智能体之间的依赖关系和关系不确定性。该方法还引入了 “预测未来” 和 “推断现在” 两个创新特性,使得该方法能够从有限数据中构建历史和实时信息的时间图,促进策略学习和有效协作。实验结果表明,该方法在 StarCraft II 基准测试中具有卓越的性能。
Mar, 2024
本文旨在提出一种不受结构约束的因式分解方法 QTRAN,以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明,QTRAN 优于先前的算法,特别是在惩罚非合作行为的游戏中,其优势更为明显。
May, 2019
本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法,它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色,尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项,并在无需重新训练 / 微调的情况下,显著提高 SoTA 超过 30%。
Oct, 2020
本文提出了一种基于多头注意力机制和 Q-value 分解的深度多智能体强化学习算法和最大化算法,并在 StarCraft 基准测试中表现出国内领先的性能。
Feb, 2020
该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架,包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX,能够优于当前最先进方法,可用于 StarCraft II 多智能体挑战基准测试中,同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。
Oct, 2020
本文提出了一种基于 Transformer 架构和 MARL 算法的 T-MAAC 框架来稳定电力分配网络中的电压,并采用一种针对电压控制任务的新型辅助训练过程,以提高样本效率和促进基于 Transformer 模型的代表学习。
Jun, 2022
该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究,并提出了一种基于模型的离线多智能体近端策略优化算法(MOMA-PPO),利用合成的交互数据帮助智能体在策略调整中更好地协调,成功解决了现有算法在多智能体任务中出现的协作问题。
May, 2023