May, 2018

近似时序差分学习是可逆策略的梯度下降

TL;DR该论文探讨了在强化学习中,通过使用Dirichlet范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保TD算法的收敛性并解决梯度消失问题。