BriefGPT.xyz
Ask
alpha
关键词
cramer distance
搜索结果 - 1
非线性分布式梯度时序差分学习
提出了分布式渐进时间差分(TD)学习的变体,并设计了新的分布式 GTD2 和分布式 TDC 算法,以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。
PDF
6 years ago
Prev
Next