同伦策略镜像下降：策略收敛，隐含正规化和改进样本复杂度

Jan, 2022

同伦策略镜像下降：策略收敛，隐含正规化和改进样本复杂度

Homotopic Policy Mirror Descent: Policy Convergence, Implicit Regularization, and Improved Sample Complexity

Yan Li, Tuo Zhao, Guanghui Lan

TL;DR提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD)，用于解决具有有限状态和动作空间的折扣、无限时间MDPs，并具有多种计算性质。该方法在全局和局部上均具有收敛性，并且能够在一定条件下证明和表征极限策略。同时，使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略，在不同Bregman散度之间进行扩展，以及是一些常见Bregman散度的有限时间精确收敛。

Abstract

We propose the homotopic policy mirror descent (HPMD) method for solving discounted, infinite horizon mdps with finite state and action space, and study its policy →

发现论文，激发创造

随机镜像下降法高效求解MDPs

通过基于原始-对偶随机镜像下降的统一框架，提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程，同时提出了解决双线性鞍点问题与约束MDPs的方法。

Aug, 2020

针对强化学习的政策镜面下降算法：线性收敛、新采样复杂度和广义问题类

本文提出了新的政策镜反射（PMD）方法，用于解决具有强凸性或一般凸性正则化的强化学习（RL）问题，并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率，提出了计算这些正则化梯度的复杂度，并展示了此正则化的应用性。

Jan, 2021

带正则化的政策镜像下降算法：具有线性收敛的广义框架

提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题，具有线性收敛特性，支持一般类别的凸正则化器，并在数值实验中得到验证。

May, 2021

关于策略梯度方法的收敛速度

研究无限时间折扣马尔可夫决策问题，并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度，包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法，并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。

Jan, 2022

自然策略梯度法在对数-线性策略下的线性收敛

本研究考虑了无限期折扣马尔可夫决策过程，并研究了自然策略梯度和Q-NPG方法在对数线性策略类下的收敛速度及样本复杂性，其在非自适应几何递增步长下可以实现线性收敛率和样本复杂度的约为O(1/epsilon^2)。

Oct, 2022

政策镜像下降算法固有地探索动作空间

本文所提出的新算法不依赖于探索策略，通过引入两个新的基于策略的评估算符和对SPMD算法的新颖分析，实现了在线策略梯度方法的样本复杂度的近似上界，无需显式探索，可以避免在寻找最优策略时反复执行潜在的高风险动作，具有更强的收敛性能。

Mar, 2023

策略镜像下降与前瞻

提出了一种名为$h$-PMD的新型PMD算法类，它将多步贪心策略改进与PMD更新规则相结合，以解决具有lookahead深度$h$的折扣无限时间马尔可夫决策过程，并且拓展到线性函数逼近以适应大状态空间。

Mar, 2024

政策梯度方法的强多项式时间和验证分析

本研究解决了强化学习中缺乏最佳性原则度量的问题，通过发展一种简单可计算的间隙函数，提供了最佳性间隙的上下界。研究表明，基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛，这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程，并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。

Sep, 2024

强健马尔可夫决策过程的策略梯度

本研究针对强健马尔可夫决策过程中的模型不确定性问题，提出了一种通用的策略梯度方法DRPMD，确保全局最优性。该方法通过适应性容忍度的镜像下降更新规则，提供了强健政策学习的新途径，并在多个复杂场景中验证了其强健性及全局收敛性。

Oct, 2024

稳健马尔可夫决策过程的策略梯度

本文研究了针对稳健马尔可夫决策过程（MDPs）的策略梯度方法，填补了模型歧义对学习稳健政策的挑战。提出了一种新颖的策略梯度方法——双循环稳健政策镜面下降（DRPMD），该方法通过适应性容忍度保证了全局最优政策的收敛。实验证明了DRPMD在各种稳健MDP设定下的稳健性和全局收敛性。

Oct, 2024