Feb, 2023

基于核的Q-Learning的样本复杂度

TL;DR本文论述了基于核心回归的Q学习在存在生成模型时的采样复杂度,提出了一种非参数Q学习算法,其样本复杂度优化到ε和核心复杂度的阶数,这是针对这种普遍模型的首个具有有限样本复杂度的结果。