Mar, 2022

解决多智能体状态空间维度诅咒的方法:一种统一的个体置换框架

TL;DR该研究提出了一种基于排列不变性和排列等变性思想的多智能体强化学习框架,它包括动态排列网络和超策略网络等实现方式,实验证明这种方法能够显著提高已有多智能体强化学习算法的性能和学习效率,并在 SMAC 等环境中实现了前所未有的 100% 胜率。