异构多机器人强化学习
本文提出了基于 HARL 算法的新框架 HAML,将多智能体强化学习的合作扩展到异构智能体模式,并对该框架下的多种算法进行了验证和比较。测试表明,HARL 算法在协调异构智能体方面的稳定性和有效性要优于现有的 MA 对应物。
Apr, 2023
我们提出了一个名为 SHPPO 的新型 MARL 框架,通过将异质性整合到共享参数的 PPO 基础的 MARL 网络中,实现了可扩展性和异构性,并在经典 MARL 环境中展示了优越的零 - shot 可扩展性和对学习潜在表示的可视化带来的团队绩效的洞察。
Apr, 2024
本文介绍了一种名为异构代理镜像学习(HAML)的新型框架,该框架提供了一种通用的 MARL 算法设计模板,解决了在奖励单调性或收敛时的非最优性能问题,通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性,并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。
Aug, 2022
本研究实现了一个基于 Starcraft 多智能体协作异构场景的多智能体强化学习算法 - Grouped Hybrid Q 学习 (GHQ),通过最大化群组间的互信息来加强协调,并在原始和新的异构地图上进行实验以证明 GHQ 相对于其他最先进算法的卓越表现。
Mar, 2023
本研究提出了一种名为 Heterogeneous League Training (HLT) 的通用强化学习算法,用于解决异构多智能体问题,试验结果表明 HLT 可以提高异构团队在合作任务中的成功率,是解决策略版本迭代问题的有效途径,提供了评估异构团队中每个角色难度的实际方法。
Nov, 2022
该研究提出了一种名为 HetNet 的异构网络注意力思想,用于协调不同类型的机器人团队完成合作任务,并评估 HetNet 在解决信息交互问题中的性能提升,实验结果表明其相比基准方法,在学习复杂多智能体协作的通信协议方面,表现更好。
Aug, 2021
本文介绍了针对到多智能体强化学习 (MARL) 的信任区域方法,并展示了 Heterogeneous-Agent Trust Region Policy Optimisation 和 Heterogeneous-Agent Proximal Policy Optimisation 算法的成功应用。
Sep, 2021
该论文介绍了一种扩展的 Mirror Descent 方法,用于克服合作多智能体强化学习设置中的挑战,其中智能体具有不同的能力和个体策略。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法利用多智能体优势分解引理来实现每个智能体的高效策略更新,同时确保整体性能改进。通过通过解决信任域问题的近似解来迭代更新智能体策略,HAMDPO 保证了稳定性并提高了性能。此外,HAMDPO 算法能够处理多样化智能体在各种 MARL 问题中连续和离散的动作空间。我们在 Multi-Agent MuJoCo 和 StarCraftII 任务上评估了 HAMDPO,证明其在 HATRPO 和 HAPPO 等最先进算法方面的优越性。这些结果表明,HAMDPO 是解决合作 MARL 问题的一种有希望的方法,可能还可以扩展到解决 MARL 领域中的其他挑战性问题。
Aug, 2023
本研究提出了一种基于异构图多智能体强化学习和交通理论的创新方法,用于实时联合控制信号控制和车队编队,以缓解交通拥堵。
Oct, 2023
研究了多智能体策略在混合合作 - 竞争环境下的学习问题,提出使用图神经网络和强化学习联合训练的方法,并可以将其应用在异构多智能体行为的研究中。最终,提出了集合训练的算法,将对手 Agent 的策略融合到训练中,以提高团队的整体表现。
Jul, 2020