Oct, 2022
在q^π可实现的MDPs中进行自信近似策略迭代,以实现高效的本地规划
Confident Approximate Policy Iteration for Efficient Local Planning in
$q^π$-realizable MDPs
TL;DR论文提出了一种新的拟动态规划算法Confident Approximate Policy Iteration(CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价)下输出最优策略,同时该算法的查询复杂度较先进算法有很大的改善。