PPS-QMIX: 周期性参数共享加速多智能体强化学习的收敛
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
本文提出了一种基于结构剪枝的深度神经网络方法,旨在增加联合策略的表示能力从而在多智能体强化学习中减少共享参数对不同行为任务的性能影响。多项基准测试表明所提方法相比共享参数方法具有显著的提高。
Mar, 2023
该论文提出了一种新颖的方法,通过根据智能体的能力和目标对其进行分区,将参数共享的样本效率与多个独立网络的表征能力相结合,以缩短训练时间并提高最终回报,从而解决多智能体深度强化学习中,参数共享方法在不同环境下对训练速度和收敛效果的影响。
Feb, 2021
该论文提出了一种双重平均方案,其中每个代理迭代地执行平均化,以融合相邻梯度信息和本地奖励信息,解决多智能体强化学习中的政策评估问题,并且实现了分散的凸凹螺旋点问题的快速收敛。
Jun, 2018
本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法,实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。
Jan, 2019
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。
Jun, 2021
我们提出了第一个关于合作多智能体强化学习(MARL)中可证明效率的随机探索的研究,提出了一种统一的随机探索算法框架,以及两种基于 Thompson Sampling(TS)的算法。我们在多个并行强化学习环境中评估了我们的方法,包括深度探索问题,视频游戏和能源系统中的一个实际问题。实验证明,我们的框架即使在过渡模型误指定的条件下,也能达到更好的性能,此外,我们还建立了我们统一框架与联邦学习的实际应用之间的联系。
Apr, 2024
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。
Feb, 2020