NIPSFeb, 2018

最近邻 Q 学习

TL;DR该论文研究利用最近邻回归方法的最近邻 Q 学习算法,从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数,提供了紧密的有限样本收敛速率分析和样本复杂度。