关于策略改进算法的收敛性和收敛速度

Jun, 2024

关于策略改进算法的收敛性和收敛速度

On Convergence and Rate of Convergence of Policy Improvement Algorithms

Jin Ma, Gaozhan Wang, Jianfeng Zhang

TL;DR该论文提供了一个简单的证明，从头开始验证了连续时间熵正则化随机控制问题的策略改进算法的收敛性。通过利用 PIA 所涉及的迭代 PDE 中的复杂 PDE 估计，Huang-Wang-Zhou (2023) 已经建立了这样的收敛性。我们的方法基于一些 Feynman-Kac 类型的概率表示公式及其导数的解。此外，在具有较大折扣因子的无穷时间模型和有限时间模型中，我们通过类似的论证得到了指数级收敛速度。

Abstract

In this paper, we provide a simple proof from scratch for the convergence of the policy improvement algorithm(PIA) for a continuous time entropy-regularized stochastic control problem. Such →

policy improvement algorithm convergence entropy-regularized stochastic control problem feynman-kac type probabilistic representation formulae exponential rate of convergence

发现论文，激发创造

连续时间与空间中的策略镜像下降熵退火

熵正则化在政策优化中被广泛使用，有助于优化收敛，本文通过分析连续时间政策镜像下降动态，证明了固定熵水平下的动态指数级收敛到正则化问题的最优解，并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。

May, 2024

关于策略梯度方法的收敛速度

研究无限时间折扣马尔可夫决策问题，并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度，包括不需要熵或其他强凸正则化的自然策略梯度方法及投影 Q - 下降方法，并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。

Jan, 2022

策略迭代最坏情况复杂度的改进界

本文主要探讨关于马尔可夫决策过程解决方案的复杂度问题，研究表明，虽然使用线性规划技术解决方案可以在多项式时间内完成，但使用迭代方法，如策略迭代算法，通常在实践中更高效。同时，本文提出了关于策略迭代算法收敛步数的改进，得出了一个更合理的上限。

Oct, 2014

近似策略迭代方案对比

本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题，研究了几种近似策略迭代算法，对它们进行了性能分析，显示了非静态策略迭代算法可以在内存和性能之间进行平衡。

May, 2014

政策迭代的复杂性

本文研究关于 Markov 决策过程的策略迭代算法的收敛性和复杂度，提出了一种复杂度上界的限制方法，不依赖于折扣因子的价值，有效地限制了策略迭代算法收敛至最优策略所需的迭代次数。

Jan, 2013

使用协方差矩阵适应的路径积分策略改进

该研究论文介绍了一种名为 PI2 的强化学习方法，此方法优化参数化政策来处理连续状态和动作问题，并将其与基于概率加权平均的其他方法进行比较，最终提出了一种名为 PI2-CMA 的新算法，其主要优势是自动确定探索噪声的大小。

Jun, 2012

线性双时间尺度随机逼近的收敛速率

本研究讨论了线性二时间尺度随机逼近方法的收敛速度，证明了它们的渐进协方差和建立了渐近正态性，通过本文的一般结果，证明了著名的 Polyak-Ruppert 平均技术在线性随机逼近中的最优性。

May, 2004

牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁

通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价，并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性，以及有限步策略评估版本等价于不精确的 Newton 方法。

Oct, 2023

带熵正则化的线性二次调节器快速策略学习

该研究提出并分析了两种新的策略学习方法：正则化策略梯度（RPG）和迭代策略优化（IPO），用于一类基于无限时间地奖励折扣的线性二次调节器（LQR）问题，该问题通过熵正则化进行优化。在假设能够准确评估策略的情况下，这两种方法都被证明在找到正则化 LQR 的最佳策略时具有线性收敛性。此外，一旦进入最佳策略周围的局部区域，IPO 方法可以实现超线性收敛率。最后，当将来自已知环境中的 RL 问题的最佳策略适当转移为未知环境中的 RL 问题的初始策略时，如果后者与前者足够接近，则 IPO 方法可以实现超线性收敛率。通过数值示例支持这些提出的算法的表现。

Nov, 2023

关于某些策略搜索动态规划算法的性能界限

本篇研究考虑了马尔科夫决策过程 (Markov Decision Processes) 的无限时间折扣优化控制问题，并提供了 Policy Search 算法以及 Direct Policy Iteration 和 Conservative Policy Iteration 的性能保证，同时提出了 Non-Stationary Direct Policy Iteration 算法，并证明其时间复杂度类似于 DPI，性能保证好于 DPI，且与 CPI 相当。

Jun, 2013