Oct, 2022

在 q^π 可实现的 MDPs 中进行自信近似策略迭代,以实现高效的本地规划

TL;DR论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价)下输出最优策略,同时该算法的查询复杂度较先进算法有很大的改善。