approximate policy iteration | BriefGPT

关键词approximate policy iteration

搜索结果 - 6

正式验证的近似策略迭代
我们使用交互式定理证明器 Isabelle/HOL 对一种近似策略迭代算法在因子化马尔可夫决策过程上进行了形式验证。接着，我们展示了如何将形式化的算法细化为可执行的验证实现。所开发的实现方案经过了基准问题的评估，表明其实用性。作为细化的一部
PDF25 days ago
在 q^π 可实现的 MDPs 中进行自信近似策略迭代，以实现高效的本地规划
论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI)，并将其应用于以局部模拟器为基础的规划问题中，该算法通过一系列策略来获得越来越精确的结果，在最小代价（内存和计算代价
PDF2 years ago
使用双仿度量进行近似策略迭代
本文提出 Sinkhorn 距离可以定义 Bisimulation metrics，通过 Bisimulation-based discretization 的 Approximate Policy Iteration 可以在 Actor-
PDF2 years ago
政策优化的贪婪算子：研究正向和反向 KL 散度
本论文研究了使用 KL 散度来进行策略更新的近似策略迭代算法中，正反向 KL 散度的差异及其对策略改进的影响，进一步探讨熵正则化以及使用前向和后向 KL 散度不同选择的策略改进保证，同时提出许多策略梯度方法可作为近似策略迭代算法的实例，为进
PDF3 years ago
双策略迭代
本文提出了 Dual Policy Iteration 的概念，利用该框架有效地将模型无关和基于模型的强化学习方法与未知动力学结合起来，用于处理各种连续控制马尔可夫决策过程。
PDF6 years ago
带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程
研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结
PDF13 years ago