Jul, 2022

利用转化和蒸馏框架实现合作多智能体强化学习的全局最优

TL;DR本文提出了一种名为TAD的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题,并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中,相对于基于 PPO 算法的算法具有显著的优越性能。