BriefGPT.xyz
Ask
alpha
关键词
linear value-function approximation
搜索结果 - 1
在 q^π 可实现的 MDPs 中进行自信近似策略迭代,以实现高效的本地规划
论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价
→
PDF
2 years ago
Prev
Next