May, 2018
一种适用于具有任意变换奖励和转移的马尔科夫决策过程的滑动窗口算法
A Sliding-Window Algorithm for Markov Decision Processes with
Arbitrarily Changing Rewards and Transitions
TL;DR提出一种滑动窗口算法,针对变化的马尔可夫决策过程,同时考虑状态转移概率和奖励函数的变化。对于该问题,我们提供了性能保证,并表征了适用于我们算法的最优窗口大小。同时,我们还给出了算法采取的子优步数的样本复杂度界限以及一些实验结果来支持我们的理论分析。