Aug, 2023

最小化差值的最优 $Q$ 学习与最近邻

TL;DR该研究提出两种新的 Q 学习方法,以弥补 (Shah and Xie, 2018) 中收敛速率差异,其中一种是脱机方法,另一种是在线方法。尽管我们仍然使用最近邻方法估计 Q 函数,但算法与 (Shah and Xie, 2018) 有着关键的不同之处。特别地,在离散区域中,我们将核最近邻方法替换为直接最近邻方法。因此,我们的方法显著提高了收敛速率。此外,在高维状态空间中,时间复杂度也显著改善。我们的分析表明,脱机和在线方法都是极小极大速率最优的。