Nov, 2016

加速梯度时差学习

TL;DR本文提出了一种新的TD方法家族ATD方法,用于在保证数据效率、减少参数灵敏度和渐进无偏的情况下,大幅减少计算和存储的量,其收敛性得到了期望的证明,并在多个基准域和大型工业能源分配域上进行了实验。