BriefGPT.xyz
Ask
alpha
关键词
linear td(0)
搜索结果 - 1
NIPS
情感强化时序差分学习的初步实证研究
本文首次实证研究了强调时间差分学习算法(ETD)在 Mountain Car 问题的使用,对比标准的时间差分学习算法,比如线性 TD(0),研究表明在 on-policy 和 off-policy 两种情况下,ETD 算法的收敛效果更好。
PDF
7 years ago
Prev
Next