ACE: 双向行动依赖的协作多智能体 Q-learning
我们提出了一种异步的多智能体强化学习算法,Asynchronous Coordination Explorer (ACE),可以在处理机器人探索问题时减少实际探索时间,并通过使用基于 CNN 的策略将遗失的机器人维护在一个团队中。
Jan, 2023
本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法,建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性,通过可微的有向无环图,实现了动态学习具有背景感知能力的贝叶斯网络策略,并在多个 MARL 基准测试中获得了改进。
Jun, 2023
本文提出了一种可伸缩的演员 - 评论家(SAC)方法,可以解决具有本地依赖结构的网络多智能体强化学习(MARL)问题,其复杂度与本地邻域的状态 - 动作空间大小相比,而不是整个网络的规模,其效果取决于智能体在图中的距离,通过利用指数衰减性质,可以获得性能接近最优的局部策略。
Jun, 2020
本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法,以提高城市交通网络中的自适应交通信号控制的可观测性和减少学习难度,并在大型合成交通网格和摩纳哥城的大型实际交通网络下,通过模拟高峰流量动态,并将其与独立 A2C 和独立 Q-learning 算法进行比较,结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。
Mar, 2019
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
本文提出了一种新的多智能体强化学习方法,旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构,有效提高学习性能,并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上,我们提出了一种实用的训练算法,利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上,我们利用了四个 DAG 环境,包括英特尔高容量封装和测试工厂的真实排程,对我们的方法进行基准测试,证明其优于其他非 DAG 方法。
Jul, 2023
本研究提出一种具有 Few-shot Learning 算法的网络架构,允许在集中式训练期间代理的数量变化,这可以使新代理的模型适应速度比基线模型快 100 多倍。
Aug, 2022
本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架,在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。
May, 2022
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文介绍了一种基于编码器 - 解码器结构的潜在 IA2C 方法,其利用去中心化的训练和执行,学习隐藏状态和其他代理的动作的潜在表示,实验结果表明,潜在 IA2C 显著提高了样本效率,并在具有开放代理人口的时间上进行了评估。
May, 2023