Feb, 2021

线性可行最优状态价值函数下的MDP查询效率规划

TL;DR本文考虑了使用生成模型进行有限轮次的MDP本地规划,并提出了一种名为TensorPlan算法的方法,在最优价值函数符合线性可实现性的情况下,能够以poly((dH/δ)的复杂度找到相对于任何线性可实现性且存在界限参数的确定性策略的δ最优策略;此外,本文还将上限拓展到了近可实现性情况和无限时域折扣设置。