Apr, 2013

具有资格追踪的离线学习:一份调查报告

TL;DR采用资格追踪技术对现有算法进行了系统的改进,并提出了新的扩展算法,比较实验结果表明标准的 on-policy 和 off-policy LSTD(λ)/LSPE(λ)算法以及如果特征空间维度太大不能使用最小二乘法则选择 TD(λ)算法最佳。