中國跳棋中高效學習:多智能體增強學習中的參數共享比較
本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战,此方法相对于单一智能体,其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证,并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法,如 Proximal Policy Optimization 和 Soft Actor-Critic。
Nov, 2022
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。
Jun, 2021
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
本研究提出一种具有 Few-shot Learning 算法的网络架构,允许在集中式训练期间代理的数量变化,这可以使新代理的模型适应速度比基线模型快 100 多倍。
Aug, 2022
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式 MarL 框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优于现有方法。
Dec, 2021
该论文提出了一种新颖的方法,通过根据智能体的能力和目标对其进行分区,将参数共享的样本效率与多个独立网络的表征能力相结合,以缩短训练时间并提高最终回报,从而解决多智能体深度强化学习中,参数共享方法在不同环境下对训练速度和收敛效果的影响。
Feb, 2021
本文提出了一种基于结构剪枝的深度神经网络方法,旨在增加联合策略的表示能力从而在多智能体强化学习中减少共享参数对不同行为任务的性能影响。多项基准测试表明所提方法相比共享参数方法具有显著的提高。
Mar, 2023
本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法(独立学习、集中式多智能体策略梯度、价值分解)在多样化的合作多智能体学习任务中的表现,为算法在不同学习任务中的预期性能提供参考,并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL,延伸了 PyMARL 代码库以包括其他算法,并允许对算法实现细节进行灵活配置,例如参数共享。最后,我们还开源了两个多智能体研究的环境,重点是在稀疏奖励下的协调。
Jun, 2020