Feb, 2020

自适应线性函数逼近时间差分学习

TL;DR本文提出了一种自适应投影变体的临时差异(TD)学习算法AdaTD(0),它具有线性函数逼近和可证明稳定性,其实验结果表明其对于标准强化学习任务具有有效性。