关键词temporal difference learning algorithms
搜索结果 - 2
- 基于目标的时序差分学习
本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的 TD 学习不同,维护两个独立的学习参数 - 目标变量和在线变量,以加速 Deep Q 学习中目标网络的收敛。
- 线性随机逼近和 TD 学习的有限时间误差界
考虑由 Markovian 噪声驱动的线性随机逼近算法的动态特性,通过考虑适当选择的 Lyapunov 函数的漂移,获得常数步长算法的有限时间误差的二次矩的有限时间界限。我们还对逼近误差 2 范数的平方的矩进行了全面的处理。