Feb, 2016

带离线修正的 Q ($λ$)

TL;DR这篇论文提出和分析了一种替代的离线多步时间差异学习方法,在其中离线返回校正与当前的 Q 函数以奖励形式相关,而不是与目标策略以转换概率相关,证明了这种近似校正在离线评估和控制中足以实现离线收敛条件,并对连续状态控制任务进行了理论关系的实证。