BriefGPT.xyz
Ask
alpha
关键词
least-squares td prediction
搜索结果 - 1
时序差异学习在罕见事件预测中的令人惊讶的效率
我们定量地评估了强化学习中政策评估的时间差异(TD)学习与直接或蒙特卡罗(MC)估计器的效率,重点在于对罕见事件的相关数量的估计。我们证明了有限状态马尔可夫链中最小二乘 TD(LSTD)预测相较于 MC 能够更有效地实现相对准确性,并且通过
→
PDF
a month ago
Prev
Next