Feb, 2021

线性可行最优状态价值函数下的 MDP 查询效率规划

TL;DR本文考虑了使用生成模型进行有限轮次的 MDP 本地规划,并提出了一种名为 TensorPlan 算法的方法,在最优价值函数符合线性可实现性的情况下,能够以 poly ((dH/δ) 的复杂度找到相对于任何线性可实现性且存在界限参数的确定性策略的 δ 最优策略;此外,本文还将上限拓展到了近可实现性情况和无限时域折扣设置。