May, 2018

非线性分布式梯度时序差分学习

TL;DR提出了分布式渐进时间差分(TD)学习的变体,并设计了新的分布式 GTD2 和分布式 TDC 算法,以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。