NIPSMay, 2017
情感强化时序差分学习的初步实证研究
A First Empirical Study of Emphatic Temporal Difference Learning
Sina Ghiassian, Banafsheh Rafiee, Richard S. Sutton
TL;DR本文首次实证研究了强调时间差分学习算法(ETD)在 Mountain Car 问题的使用,对比标准的时间差分学习算法,比如线性 TD(0),研究表明在 on-policy 和 off-policy 两种情况下,ETD 算法的收敛效果更好。