Jun, 2012

强化学习中基于生成模型的样本复杂度研究

TL;DR本文使用生成模型证明了在马尔可夫决策过程中,基于值迭代算法的样本复杂度PAC上限为O(Nlog(N/δ)/((1-γ)³ε²)),其中N为状态-动作对的数量,γ为折扣因子,ε表示动作价值函数的ε-最优估计,δ为概率。同时证明了在任何强化学习算法中,基于每个状态-动作对估计最优动作值函数的样本复杂度下限为Θ(Nlog(N/δ)/((1-γ)³ε²)),该上限和下限在N,ε、δ、1/(1-γ)方面匹配。