PPS-QMIX: 周期性参数共享加速多智能体强化学习的收敛

Mar, 2024

PPS-QMIX: 周期性参数共享加速多智能体强化学习的收敛

PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of Multi-Agent Reinforcement Learning

Ke Zhang, DanDan Zhu, Qiuhan Xu, Hao Zhou, Ce Zheng

TL;DR多智能体强化学习中的训练过程耗时，当前研究通过引入集中化函数和周期性参数共享机制，有效加速了训练过程，并在 StarCraft Multi-Agent Challenge 中取得了显著性能提升。

Abstract

Training for multi-agent reinforcement learning(MARL) is a time-consuming process caused by distribution shift of each agent. One drawback is that strategy of each agent in MARL is independent but actually in cooperation. Thus, a vertical issue in →

multi-agent reinforcement learning accelerate training process centralized function periodically parameter sharing starcraft multi-agent challenge

发现论文，激发创造

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

网络修剪参数共享的可扩展多智能体深度强化学习

本文提出了一种基于结构剪枝的深度神经网络方法，旨在增加联合策略的表示能力从而在多智能体强化学习中减少共享参数对不同行为任务的性能影响。多项基准测试表明所提方法相比共享参数方法具有显著的提高。

Mar, 2023

利用选择性参数共享扩展多智体强化学习

该论文提出了一种新颖的方法，通过根据智能体的能力和目标对其进行分区，将参数共享的样本效率与多个独立网络的表征能力相结合，以缩短训练时间并提高最终回报，从而解决多智能体深度强化学习中，参数共享方法在不同环境下对训练速度和收敛效果的影响。

Feb, 2021

双平均原始对偶优化的多智能体强化学习

该论文提出了一种双重平均方案，其中每个代理迭代地执行平均化，以融合相邻梯度信息和本地奖励信息，解决多智能体强化学习中的政策评估问题，并且实现了分散的凸凹螺旋点问题的快速收敛。

Jun, 2018

多时间尺度多智能体强化学习的非平稳策略学习

多时间尺度多智能体强化学习中的非平稳政策问题可以通过周期性多智能体政策的学习和相序神经网络来解决。

Jul, 2023

去中心化网络化深度多智能体强化学习的价值传播

本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法，实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。

Jan, 2019

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。

Jun, 2021

合作多智体强化学习中的随机探索

我们提出了第一个关于合作多智能体强化学习（MARL）中可证明效率的随机探索的研究，提出了一种统一的随机探索算法框架，以及两种基于 Thompson Sampling（TS）的算法。我们在多个并行强化学习环境中评估了我们的方法，包括深度探索问题，视频游戏和能源系统中的一个实际问题。实验证明，我们的框架即使在过渡模型误指定的条件下，也能达到更好的性能，此外，我们还建立了我们统一框架与联邦学习的实际应用之间的联系。

Apr, 2024

分布式 Q-learning 的有限时间分析

多智能体强化学习在分布式 Q 学习场景中的有限时间分析及样本复杂度结果

May, 2024

用于深度多智能体强化学习的 Q 值路径分解

本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。

Feb, 2020