Oct, 2023

平均回报马尔可夫决策过程的最佳样本复杂度

TL;DR我们在具有均匀遍历的马尔可夫决策过程(MDP)中,通过建立一个估计器来实现平均奖励MDP的最优策略,其样本复杂度达到文献中的下界,并借鉴了Jin和Sidford(2021)以及Li等人(2020)的算法思想。