May, 2024

时序差异学习在罕见事件预测中的令人惊讶的效率

TL;DR我们定量地评估了强化学习中政策评估的时间差异(TD)学习与直接或蒙特卡罗(MC)估计器的效率,重点在于对罕见事件的相关数量的估计。我们证明了有限状态马尔可夫链中最小二乘 TD(LSTD)预测相较于 MC 能够更有效地实现相对准确性,并且通过简单的数量来验证了 LSTD 估计器的中心极限定理和相对渐近方差的上界。利用这个界限,我们证明了即使在罕见事件的时间尺度和 MC 估计器的相对准确性对于状态数都是指数级增长的情况下,LSTD 仍然能够以仅与状态数呈多项式级增长的马尔可夫链观测转换总数维持固定水平的相对准确性。