Mar, 2018
分布式强化学习的原始对偶算法:分布式 GTD
Primal-Dual Algorithm for Distributed Reinforcement Learning: Distributed GTD
Donghwan Lee, Hyungjin Yoon, Naira Hovakimyan
TL;DR研究分布式版本的梯度时差分 (GTD) 学习算法,应用于多代理马尔可夫决策过程 (MDPs) 中。通过将问题转化为带有共识约束的约束凸优化问题,并提出原始 - 对偶分布式 GTD 算法,以证明其几乎必定收敛于优化问题的一组静止点。