带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

Sep, 2011

带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

Approximate Policy Iteration with a Policy Language Bias: Solving Relational Markov Decision Processes

A. Fern, R. Givan, S. Yoon

TL;DR研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结果表明，该系统能够解决一系列的规划域和其随机变体，但提出了一些局限性建议未来工作。

Abstract

We study an approach to policy selection for large relational Markov Decision Processes (MDPs). We consider a variant of approximate policy iteration (API) that replaces the usual value-function learning step wit

markov decision processes policy selection approximate policy iteration relational policy language goal-based planning domains

发现论文，激发创造

自适应近似策略迭代

本研究提出一种自适应近似政策迭代 (AAPI) 学习方案，其具有较好的理论保证，并基于在线学习技术只考虑价值函数，通过数据相关的自适应学习率和所谓的乐观损失预测相结合，可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限，在许多应用领域中取得了令人瞩目的表现。

Feb, 2020

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

在 q^π 可实现的 MDPs 中进行自信近似策略迭代，以实现高效的本地规划

论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI)，并将其应用于以局部模拟器为基础的规划问题中，该算法通过一系列策略来获得越来越精确的结果，在最小代价（内存和计算代价）下输出最优策略，同时该算法的查询复杂度较先进算法有很大的改善。

Oct, 2022

近似策略迭代方案对比

本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题，研究了几种近似策略迭代算法，对它们进行了性能分析，显示了非静态策略迭代算法可以在内存和性能之间进行平衡。

May, 2014

双策略迭代

本文提出了 Dual Policy Iteration 的概念，利用该框架有效地将模型无关和基于模型的强化学习方法与未知动力学结合起来，用于处理各种连续控制马尔可夫决策过程。

May, 2018

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

近似改进策略迭代

本文旨在探讨 Modified Policy Iteration（MPI）算法的近似形式，提出了三种扩展的适应于大规模状态和动作空间的 DP 算法，包括拟合值迭代、拟合 Q 迭代和基于分类的策略迭代，并提供了统一的误差传播分析方法。同时，对于基于分类的实现，发展了有限样本分析，以显示 MPI 的主要参数如何控制分类器的估计误差和整体价值函数的近似程度。

May, 2012

L1 - 鲁棒马尔可夫决策过程的部分策略迭代

本文探讨了在考虑转移概率不确定性时，如何高效地解决具有 s - 和 sa - 矩形模糊集定义的鲁棒 MDP 问题，并提出了一种新的策略迭代方案和快速计算鲁棒 Bellman 算子的方法。实验结果表明，这些方法比使用线性规划求解器结合鲁棒值迭代的现有方法快得多。

Jun, 2020

政策迭代的复杂性

本文研究关于 Markov 决策过程的策略迭代算法的收敛性和复杂度，提出了一种复杂度上界的限制方法，不依赖于折扣因子的价值，有效地限制了策略迭代算法收敛至最优策略所需的迭代次数。

Jan, 2013

马尔可夫决策过程的几何策略迭代

探究了有限状态 - 动作折扣马尔可夫决策过程的价值函数多面体结构，并使用超平面排列表征了多面体的边界。提出了一种新的算法 Geometric Policy Iteration (GPI) 来解决折扣 MDPs，它使用单个状态的策略更新，以更快的价值改进不影响计算效率，同时允许状态值的异步更新。证明了 GPI 的复杂度达到了策略迭代的最佳已知界限，并展示了 GPI 在各种大小的 MDPs 上的优越性。

Jun, 2022