Oct, 2022

在q^π可实现的MDPs中进行自信近似策略迭代,以实现高效的本地规划

TL;DR论文提出了一种新的拟动态规划算法Confident Approximate Policy Iteration(CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价)下输出最优策略,同时该算法的查询复杂度较先进算法有很大的改善。