ICMLJul, 2020

TDprop: Jacobi 预处理有助于时序差分学习吗?

TL;DR本文研究 Jacobi 预处理在考虑时变差分学习 (TD) 的自适应优化中是否有助于提高性能。通过研究 TDprop 方法并进行理论分析和深度强化学习实验,我们发现适当的 Jacobi 预处理可以改善 Deep RL 中的优化方法,但不一定总是优于 SGD。