高效深度多智能体强化学习的表示学习
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
本研究提出了一种单一目标的方法,该方法同时优化隐空间模型和策略以实现高回报并保持自一致性,从而在提高样本效率的同时实现更好的强化学习效果。
Sep, 2022
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式 MarL 框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优于现有方法。
Dec, 2021
我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程,因此更适合于实证实现。
Oct, 2023
该研究将信任区域策略优化(TRPO)扩展到多智能体强化学习(MARL)问题,提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO,该算法能够基于本地观察和私人奖励优化分布式策略,实现完全的去中心化和保护隐私。实验表明,MATRPO 在复杂的 MARL 任务中表现出了强韧的性能。
Oct, 2020
我们开发了一种多智能体强化学习算法,通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策,以最小化多个多基站多小区网络的总能耗,同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP),以实现个别基站之间的协作,以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性,进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明,训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言,与自动休眠模式 1 (符号级睡眠) 算法相比,MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗,在高流量小时内提高了约 19% 的能源效率。
Feb, 2024
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
Mar, 2019
通过优化采样权重,将优先经验回放应用于多智能体强化学习 (MARL) 中,以最小化策略遗憾并获得更好的优先级方案,提高训练效率并在实验中表现出良好的效果。
Feb, 2023
在多智能体强化学习中,引入个性化专家演示,为每个个体智能体或团队中的每个个体智能体类型定制,以实现合作任务,并展示其在离散和连续环境中的性能优于现有算法。
Mar, 2024