AAAIFeb, 2020

马尔可夫奖励过程中折扣值的循环估计器

TL;DR研究怎样使用所提出的 Loop estimator 算法优化 Policy iteration 算法中的 Policy evaluation 步骤,实现有效的、具有强大空间和收敛性的单状态 s 值计算,以精确地评估 MDP 中的状态价值。