Jun, 2013

策略迭代复杂度的改进和推广的上界

TL;DR本文研究了两种策略迭代算法在马尔可夫决策过程中收敛所需的迭代次数,并通过结构性质得到了与折扣因子无关的上界,在假设状态空间分为瞬态和常态状态的情况下,Howard's PI 和 Simplex-PI 都可以在强多项式时间内终止。