Apr, 2019

基于目标的时序差分学习

TL;DR本文介绍了一种新的基于目标的时间差分(TD)学习算法,并对其收敛性进行了理论分析,该算法与标准的 TD 学习不同,维护两个独立的学习参数 - 目标变量和在线变量,以加速 Deep Q 学习中目标网络的收敛。