神经 MMO 2.0:多任务增强的大规模多智能体学习
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台,研究了最新的多智能体强化学习算法,对限制的内存和计算权衡性能以及对超量训练预测的影响,证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。
Mar, 2021
本文提出了一种新的多智能体强化学习方法,该方法将合作任务分解与学习奖励机器相结合,以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质,并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习,然后用于指导每个智能体的行为,从而减少了合作多智能体问题的复杂性,更有效的学习。结果表明,我们的方法是未来 MARL 研究的一个有前景的方向,特别是在具有大状态空间和多个智能体的复杂环境中。
Mar, 2023
本文介绍了一种新型的基于量子机器学习的自主多无人机控制框架 - 量子多无人机强化学习框架,并在该框架下经过充分的训练和分析,实现了合理的回报收敛和服务质量表现,具有更稳定的训练结果及优秀的训练过程分析功能。
Nov, 2022
本文提出了一种基于角色的多智能体强化学习框架,称为 ROMA,用于推进 StarCraft II 微观管理基准测试的艺术水平,该框架中的角色是新兴的,代理人倾向于在某些子任务上专业化,并添加了新的规则器来构建随机的角色嵌入空间。
Mar, 2020
合作多智能体强化学习是一个在过去五年中越来越重要的研究主题,因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架 MARL-LNS,通过在交替的智能体子集上进行训练,并使用现有的深度 MARL 算法作为底层训练器来解决维度灾难的问题,而不需要额外的参数进行训练。基于该框架,我们提供了三种算法变种:随机大邻域搜索(RLNS),批量大邻域搜索(BLNS)和自适应大邻域搜索(ALNS),这些算法以不同的方式交替使用智能体子集。我们在 StarCraft Multi-Agent Challenge 和 Google Research Football 上测试了我们的算法,并证明我们的算法可以自动减少至少 10%的训练时间,同时达到与原始算法相同的最终技能水平。
Apr, 2024
在 Minecraft 环境中,我们使用强化学习技术训练多任务代理,将任务分解成学习基本技能和规划技能这两个步骤,通过提出三种细粒度的基本技能,搭配内在奖励机制使用强化学习训练代理,在学会技能后,我们使用大型语言模型建立技能图模型,并提出技能搜索算法为代理生成适当的技能计划。在实验中,我们成功的完成了 24 个不同的 Minecraft 任务,并得到了比基线算法更好的表现。
Mar, 2023
本文在 Minecraft 中引入了一组新的强化学习任务,并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明,我们的新架构相比现有的深度强化学习架构,在未使用的环境中有更好的泛化表现。
May, 2016
本研究提出了一种基于强化学习的算法,引入了新颖的多智能体规划模块 MSP 和空间平移变换器 Spatial-TeamFormer,实现了多智能体协作视觉探测,经过政策蒸馏提取的元策略大大提高了最终策略的泛化能力,并在一个真实的 3D 模拟器 Habitat 中表现出比经典规划方法更好的性能。
Oct, 2021
我们提出了基于多智能体可扩展图神经网络的分层规划器 (MASP),用于具有大量智能体的导航任务,通过将搜索空间分成多个较小的空间以减少复杂度和加快训练收敛速度,并利用图神经网络建模智能体和目标之间的相互作用,提高目标实现能力,并在未见过的团队规模工作场景中展示了零 - shot 泛化能力。
Dec, 2023