Feb, 2020

用于深度多智能体强化学习的 Q 值路径分解

TL;DR本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。