这篇研究论文探讨了多智能体强化学习中的非静态挑战,介绍了一种异步变种的分散式 Q 学习算法,并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境,并在不强加协调假设的情况下驯服了非静态挑战。
Aug, 2023
本研究提出了一种新的元多智能体策略梯度定理,该定理直接考虑到多智能体学习环境中固有的非稳态策略动态,并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中,我们的方法能够在全谱的混合激励、竞争和合作领域中比基线方法更有效地适应学习新的代理。
Oct, 2020
本文研究了网络系统控制中的多智能体强化学习问题,提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明,合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线,而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。
Apr, 2020
本文综述了多智能体深度强化学习中的非稳态问题,包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法,并列举了未来研究的可能方向。
Jun, 2019
本文提出了一种可伸缩的演员 - 评论家(SAC)方法,可以解决具有本地依赖结构的网络多智能体强化学习(MARL)问题,其复杂度与本地邻域的状态 - 动作空间大小相比,而不是整个网络的规模,其效果取决于智能体在图中的距离,通过利用指数衰减性质,可以获得性能接近最优的局部策略。
Jun, 2020
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
Mar, 2019
我们研究了具有通用效用的可扩展多代理强化学习,通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法,该算法不需要全观察每个代理的情况,可以最大化团队的平均局部效用函数。
Feb, 2023
本研究提出一种具有 Few-shot Learning 算法的网络架构,允许在集中式训练期间代理的数量变化,这可以使新代理的模型适应速度比基线模型快 100 多倍。
Aug, 2022
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
在非稳态环境下,我们提出了一种新的离线强化学习算法,该算法使用潜在变量模型,将当前和过去的经验学习环境的表示,并在此表示下执行离线强化学习,实验结果表明这种方法显著优于不考虑环境变化的方法。