Oct, 2017

共同体多智能体强化学习的参数共享深度确定性策略梯度

TL;DR本文探讨基于 actor-critic 方法的合作多智能体问题,在局部观察设置下,在神经网络的基础上提出了参数共享确定性策略梯度方法,包括演员评论家共享、演员共享和部分共享评论家的演员共享等三个变体,该方法在学习速度、内存效率和智能体数量方面具有优势,并能充分利用奖励共享和交换特性。