Apr, 2017

TD (0) 函数逼近的有限样本分析

TL;DR本文是首篇对 TD (0) 算法在线性情况下基于函数逼近进行有限采样分析的研究,并且通过利用 TD (0) 的强大属性,提供了期望和高概率的收敛速率,并使用最近开发的随机逼近技术采用了不同的方法来获得这两种收敛速率。