Sep, 2018

马尔可夫环境下有限样本分析GTD策略评估算法

TL;DR本文首次针对Markov过程下GTD算法进行了有限样本边界分析,证明了变体步长的GTD算法会收敛且收敛速度与步长和混合时间有关,说明经验回放技巧通过改善Markov过程的混合性能有利于算法收敛。