BriefGPT.xyz
Ask
alpha
关键词
nonlinear parametric approximations
搜索结果 - 1
近似时序差分学习是可逆策略的梯度下降
该论文探讨了在强化学习中,通过使用 Dirichlet 范数来代替标准的误差计算方法,即使在使用非线性参数近似的情况下,也可以确保 TD 算法的收敛性并解决梯度消失问题。
PDF
6 years ago
Prev
Next