Jul, 2019

线性函数逼近分布式时序差分学习的有限时间性能

TL;DR本研究提出了一种分布式的 TD 算法,并对其性能进行了有限分析,探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。