Feb, 2023

基于核的 Q-Learning 的样本复杂度

TL;DR本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度,提出了一种非参数 Q 学习算法,其样本复杂度优化到 ε 和核心复杂度的阶数,这是针对这种普遍模型的首个具有有限样本复杂度的结果。