Mar, 2018

分布式强化学习的原始对偶算法:分布式 GTD

TL;DR研究分布式版本的梯度时差分 (GTD) 学习算法,应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题,并提出原始 - 对偶分布式 GTD 算法,以证明其几乎必定收敛于优化问题的一组静止点。