AAAINov, 2016

加速梯度时差学习

TL;DR本文提出了一种新的 TD 方法家族 ATD 方法,用于在保证数据效率、减少参数灵敏度和渐进无偏的情况下,大幅减少计算和存储的量,其收敛性得到了期望的证明,并在多个基准域和大型工业能源分配域上进行了实验。