Mar, 2019
多智能体强化学习中的策略蒸馏与价值匹配
Policy Distillation and Value Matching in Multiagent Reinforcement Learning
Samir Wadhwania, Dong-Ki Kim, Shayegan Omidshafiei, Jonathan P. How
TL;DR本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。