异步多智能体强化学习用于高效实时多机器人协同探索
本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架,在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。
May, 2022
此研究提出了双向依赖 Q-learning(ACE)方法,通过设计正确的网络表示,在顺序决策过程中隐式计算以解决多智能体强化学习中的非静态问题,并通过比较实践验证 ACE 超越了 Google Research Football 和 StarCraft 多智能体挑战中其他算法。
Nov, 2022
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究,并提出了一种基于模型的离线多智能体近端策略优化算法(MOMA-PPO),利用合成的交互数据帮助智能体在策略调整中更好地协调,成功解决了现有算法在多智能体任务中出现的协作问题。
May, 2023
本研究提出一种基于互助的多智能体强化学习算法 (MH-MARL),通过利用预期动作模块来促进代理之间的相互帮助,以提高在合作任务中的性能表现。通过实验结果表明,MH-MARL 在成功率和累积奖励方面都提高了 MARL 的性能。
Feb, 2023
本文提出了一种基于离线多智能体强化学习(MARL)的多机器人社交感知和高效协同规划方法,使用时间 - 空间图(TSG)进行社交编码,引入 K 步先见奖励设置,并改进了传统的集中式批判者网络,从而在多群组实验中验证了该方法的有效性。
Nov, 2022
我们提出了第一个关于合作多智能体强化学习(MARL)中可证明效率的随机探索的研究,提出了一种统一的随机探索算法框架,以及两种基于 Thompson Sampling(TS)的算法。我们在多个并行强化学习环境中评估了我们的方法,包括深度探索问题,视频游戏和能源系统中的一个实际问题。实验证明,我们的框架即使在过渡模型误指定的条件下,也能达到更好的性能,此外,我们还建立了我们统一框架与联邦学习的实际应用之间的联系。
Apr, 2024
合作多智能体强化学习是一个在过去五年中越来越重要的研究主题,因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架 MARL-LNS,通过在交替的智能体子集上进行训练,并使用现有的深度 MARL 算法作为底层训练器来解决维度灾难的问题,而不需要额外的参数进行训练。基于该框架,我们提供了三种算法变种:随机大邻域搜索(RLNS),批量大邻域搜索(BLNS)和自适应大邻域搜索(ALNS),这些算法以不同的方式交替使用智能体子集。我们在 StarCraft Multi-Agent Challenge 和 Google Research Football 上测试了我们的算法,并证明我们的算法可以自动减少至少 10%的训练时间,同时达到与原始算法相同的最终技能水平。
Apr, 2024