本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别,并介绍了基准测试和机器人应用,同时讨论了当前的研究方向。
Apr, 2022
该研究为填补离线多智能体强化学习(MARL)领域中缺乏标准基准和评估方法的空白,提出了一个名为OG-MARL的离线MARL数据集和算法框架,包括一套标准评估方案。OG-MARL的数据集本质上是从在线MARL基准中生成的,具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。
Feb, 2023
本文旨在回顾多智能体强化学习的基本方法、应用场景和当前存在的问题,提出未来十年的研究方向。研究重点包括多智能体强化学习的可扩展性、非平稳性、可信性、安全性、鲁棒性、泛化性和伦理约束等方面。另外,人机交互等人文因素是实际应用中必须考虑的问题。
May, 2023
本研究旨在针对动态物料搬运需求,提出了一种自适应受限强化学习算法,名为RCPOM,并通过一个动态物料处理的模拟器DMH-GYM,对其进行了实验评估,结果表明相较于其他8种受限和非受限强化学习算法以及广泛使用的作业规则,我们提出的方法表现出了优秀的性能。
我们介绍了IMP-MARL,它是一个开源的多智能体强化学习环境套件,用于大规模基础设施管理规划,它为协作MARL方法在实际工程应用中的可伸缩性提供了一个基准平台。
Jun, 2023
该论文调查了多智能体系统中学习最优控制的复杂性,旨在深入理解多智能体应用的机遇和挑战,为研究人员和从业者提供有价值的观点,以促进该领域的发展。
Dec, 2023
本研究解决了现代制造过程中实时动态调度任务的复杂性问题,通过应用领导-跟随多智能体强化学习(MARL)方法,将调度问题分解为一系列子问题,以实现可扩展性。研究结果表明,提出的模型在各方面优于现有基于深度强化学习的调度模型,并在需求变化下展现出更强的调度性能,具有广泛的制造业应用潜力。
Sep, 2024