利用对称先验进行多智体强化学习
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。
Jun, 2021
本文重点研究了自然界中对称模式的识别和分析,在物理学中导致了引力定律的制定和化学结构研究的进展。我们着眼于利用某些协同多智能体强化学习问题中固有的欧几里得对称性,该问题在许多应用中普遍存在。我们首先形式化地表征了一类具有对称最优值和策略存在性的马尔科夫博弈的子类。在这些属性的基础上,我们设计了具有对称约束的神经网络架构,作为多智能体演员 - 评论家方法的归纳偏见。这种归纳偏见在各种协同多智能体强化学习基准测试中表现出优越的性能,以及在具有重复对称模式的未见场景中进行的零样本学习和迁移学习等令人印象深刻的泛化能力。代码可在此 https URL 获取。
Aug, 2023
本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架,在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。
May, 2022
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
本文介绍了一种名为异构代理镜像学习(HAML)的新型框架,该框架提供了一种通用的 MARL 算法设计模板,解决了在奖励单调性或收敛时的非最优性能问题,通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性,并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。
Aug, 2022