机器人团队的分布式强化学习:回顾
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
提出了基于LTDE-Neural-AC和演员-评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
本文介绍了一个用于多机器人强化学习的可扩展仿真平台SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
本文提出了一种基于宏操作(macro-actions)的多智能体强化学习方法,该方法支持异步学习和决策制定,在多智能体/机器人领域具有广泛应用价值。本文的算法在多个领域的仿真实验和现实机器人实验中验证了其有效性和高质量解决方案的能力。
Sep, 2022
该研究为填补离线多智能体强化学习(MARL)领域中缺乏标准基准和评估方法的空白,提出了一个名为OG-MARL的离线MARL数据集和算法框架,包括一套标准评估方案。OG-MARL的数据集本质上是从在线MARL基准中生成的,具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。
Feb, 2023
多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架,采用对比学习来促进智能体之间的全局一致性,从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性,并在执行期间将其作为额外信息来指导协同行动,通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响,优化即时反应和战略规划之间的平衡,以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用,展示了我们框架相对于基准的卓越性能,取得了显著的进展。
Jul, 2024