Apr, 2019

基于目标的时序差分学习

TL;DR本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的TD学习不同,维护两个独立的学习参数-目标变量和在线变量,以加速Deep Q学习中目标网络的收敛。