Aug, 2023

直接梯度时差学习

TL;DR提出一种直接解决双重采样问题的方法,通过在逐渐增大的马尔可夫数据流中使用两个样本,该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效,但摆脱了 GTD 的额外权重,而唯一的代价是随着时间的推移,存储空间呈对数增长。