Jul, 2020

离策略多智体分解策略梯度

TL;DR本文研究多智能体问题中现有的算法相比于最先进的价值方法存在的性能差异,并提出了一种多智能体分解的策略梯度方法,该方法引入了价值函数分解的想法,并针对离散和连续动作空间中的集中 - 分散不匹配和信用分配问题进行了解决。实验结果表明,该方法在同类算法中的表现优异。