Mar, 2019

多智能体强化学习中的策略蒸馏与价值匹配

TL;DR本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。