本文研究深度强化学习在多智能体领域的应用,提出一种基于演员-评论家方法的适应性策略,可成功学习需要多智能体协作的复杂策略,并通过使用每个智能体的策略集进行训练,得到了更强大、更健壮的策略。在合作和竞争场景中,我们的方法相比现有方法能够发现各种物理和信息协调策略。
Jun, 2017
本文探讨基于 actor-critic 方法的合作多智能体问题,在局部观察设置下,在神经网络的基础上提出了参数共享确定性策略梯度方法,包括演员评论家共享、演员共享和部分共享评论家的演员共享等三个变体,该方法在学习速度、内存效率和智能体数量方面具有优势,并能充分利用奖励共享和交换特性。
Oct, 2017
提出了一个基于 Actor-Critic 算法的多智能体强化学习算法,解决了多智能体场景下的信息筛选问题,可应用于大多数多智能体学习问题。
Oct, 2018
使用通信媒介增强的多智能体深度确定性策略梯度算法在六种高度非稳态环境中表现良好,相比基线模型具有显著性能提升。
Dec, 2018
此篇论文介绍了多智能体深度强化学习的不同方法,包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习,并分析和讨论了这些方法的优缺点及其相关应用,旨在促进更加健壮和高效的多智能体学习方法的发展。
本文介绍了一种使用深度循环多智能体演员-评论家框架(R-MADDPG)处理部分可观测设置和有限通信下多智能体协调的方法,并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明,该框架可以学习随时间变化的依赖关系,处理资源限制,并在智能体之间开发不同的通信模式。
Feb, 2020
本文提出一种可训练的在线分散式规划算法,基于分散蒙特卡洛树搜索,结合先前的剧集运行学习的队友模型,利用深度学习和卷积神经网络生成精确的策略逼近器,提高了策划性能。此算法支持去中心化在线规划的多代理系统.
Mar, 2020
本论文提出了一种基于分布式深度学习的多智能体Actor-Critic学习算法,应用于Markov博弈,能够在训练和部署中实现完全分布式,具有一定的实用价值。
Jan, 2022
本文介绍了一种基于深度强化学习的多智能体协作方法,通过分布式学习实现了高效的策略搜索,并在合作变道场景中进行了仿真和实际案例验证。
Jun, 2022
在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景,在完全合作的多智能体强化学习中,学习算法控制着场景中的所有智能体,而在特定团队合作中,学习算法通常只控制场景中的单个智能体。然而,在现实世界中,许多合作场景要求更灵活的学习方法。本文提出了N-智能体特定团队合作算法(POAM),用于解决在评估阶段必须与动态变化的不同类型的队友进行交互和合作的智能体问题,并通过学习队友行为的表示来适应各种队友行为。在《星际争霸II》任务的实证评估中,POAM相对于基准方法提高了协作任务的回报,并实现了对未见过队友的分布外泛化。
Apr, 2024