Feb, 2016

实用的线性时间差分学习研究

TL;DR本文介绍了两种混合 TD 策略评估算法,并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。