Feb, 2012

折扣马尔可夫决策过程的 PAC 上界

TL;DR本文旨在研究在有限状态折扣马尔可夫决策过程中,学习接近最优行为的样本复杂度的上下界,并在假设每个动作导致的下一个状态至多有两个的情况下证明了 UCRL 算法的新界限,同时还通过更加通用且更加严格的下界加强了之前的工作。这些上下界在对数因子上相吻合。