关键词centralized training with decentralized execution
搜索结果 - 7
- 离线多智能体强化学习与安全约束的扩散模型
最近在多智能体强化学习(MARL)的进展中,其应用已扩展到各种安全关键场景。然而,大多数方法专注于在线学习,在实际环境中部署时存在重大风险。为了解决这一挑战,我们引入了一个创新的框架,将扩散模型与 MARL 范式相结合。通过风险缓解来增强多 - Soft-QMIX:整合最大熵用于单调值函数分解
提出了 QMIX 的增强算法,通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法,从而解决 QMIX 的探索策略问题,并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证,并在矩阵游戏、多智能体粒子环境和 SMA - 相对熵正则化的有效多智能体深度强化学习控制
本文提出了一种新颖的多智能体强化学习方法,即多智能体连续动态策略梯度(MACDPP),用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构,缓解了多个智能 - 可伸缩的多智能体模型基强化学习
本文提出了一种名为 MAMBA 的新方法,通过利用基于模型的强化学习(MBRL)进一步利用合作环境中的集中式训练,从而使代理之间的通信足以在执行阶段维持每个代理的世界模型,而虚拟推演可用于培训,从而通过减少与环境的互动次数,以与 Model - 独立学习是否足以应对 StarCraft 多智能体挑战?
本文比较了协作多智能体强化学习中的独立学习方法和联合学习方法在 SMAC 测试套件中的性能差异,发现在一些情况下,独立学习方法可以像联合学习方法一样表现出色,并且更具有适应性。
- QR-MIX: 合作多智能体强化学习中的分布式价值函数分解
提出了 QR-MIX 模型,通过引入分位数回归来建模联合状态行动值分布,结合 QMIX 和隐式分位数网络,提高了随机性和单调性的容忍度,优于 QMIX。
- ICMLQTRAN:基于变换因式分解的合作多智能体强化学习算法
本文旨在提出一种不受结构约束的因式分解方法 QTRAN,以解决 VDN 和 QMIX 等算法只能解决部分可因式分解的多智能体强化学习任务的问题。实验结果表明,QTRAN 优于先前的算法,特别是在惩罚非合作行为的游戏中,其优势更为明显。