NIPSMay, 2017

情感强化时序差分学习的初步实证研究

TL;DR本文首次实证研究了强调时间差分学习算法(ETD)在 Mountain Car 问题的使用,对比标准的时间差分学习算法,比如线性 TD(0),研究表明在 on-policy 和 off-policy 两种情况下,ETD 算法的收敛效果更好。