Sep, 2015

广义强化时间差分学习:偏差 - 方差分析

TL;DR本文提出了一种广义的基于强化学习的离线评估算法,该算法可以控制一个重要性采样因子的衰减速度,并研究了其收敛和精度属性。