Aug, 2021

截断强调时间差异方法在预测和控制中的应用

TL;DR本文旨在通过使用截断 “随后追踪”(followon traces)的强调式时间差(TD)方法,解决随后追踪在实践中难以使用的大方差问题。与原始的随后追踪不同,截断的随后追踪仅依赖于有限的历史数据,从而减少方差,并使我们提出的强调式 TD 方法在预测和控制问题上进行有限样本分析