策略镜像下降与前瞻

Mar, 2024

Policy Mirror Descent with Lookahead

Kimon Protopapas, Anas Barakat

TL;DR提出了一种名为$h$-PMD的新型PMD算法类，它将多步贪心策略改进与PMD更新规则相结合，以解决具有lookahead深度$h$的折扣无限时间马尔可夫决策过程，并且拓展到线性函数逼近以适应大状态空间。

Abstract

policy mirror descent (PMD) stands as a versatile algorithmic framework encompassing several seminal policy gradient algorithms such as natural policy gradient, with connections with state-of-the-art reinforcemen

发现论文，激发创造

随机镜像下降法高效求解MDPs

通过基于原始-对偶随机镜像下降的统一框架，提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程，同时提出了解决双线性鞍点问题与约束MDPs的方法。

Aug, 2020

针对强化学习的政策镜面下降算法：线性收敛、新采样复杂度和广义问题类

本文提出了新的政策镜反射（PMD）方法，用于解决具有强凸性或一般凸性正则化的强化学习（RL）问题，并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率，提出了计算这些正则化梯度的复杂度，并展示了此正则化的应用性。

Jan, 2021

带正则化的政策镜像下降算法：具有线性收敛的广义框架

提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题，具有线性收敛特性，支持一般类别的凸正则化器，并在数值实验中得到验证。

May, 2021

镜像学习: 策略优化的统一框架

本研究提出了一种名为Mirror Learning的新理论框架，为包括TRPO和PPO在内的大类算法提供理论保证，这说明现代深度强化学习算法的实际表现是其理论特性的直接结果，而不是先前提到的近似类比，从而使我们自由地探索新颖的、理论上可行的RL算法，这是一个迄今未开发的奇妙世界。

Jan, 2022

关于策略梯度方法的收敛速度

研究无限时间折扣马尔可夫决策问题，并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度，包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法，并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。

Jan, 2022

同伦策略镜像下降：策略收敛，隐含正规化和改进样本复杂度

提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD)，用于解决具有有限状态和动作空间的折扣、无限时间MDPs，并具有多种计算性质。该方法在全局和局部上均具有收敛性，并且能够在一定条件下证明和表征极限策略。同时，使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略，在不同Bregman散度之间进行扩展，以及是一些常见Bregman散度的有限时间精确收敛。

Jan, 2022

策略镜像下的元学习及其镜像映射

我们的研究发现，传统的镜像映射选择（NPG）在多个标准基准环境下往往产生次优结果。通过应用元学习方法，我们确定了提高性能的更有效的镜像映射，并分析了这些学习到的镜像映射的特点，揭示了某些设置之间的共享特征。我们的结果表明，镜像映射有潜力在各种环境中适应，这引发了如何最好地将镜像映射与环境的结构和特性相匹配的问题。

Feb, 2024

政策梯度方法的强多项式时间和验证分析

本研究解决了强化学习中缺乏最佳性原则度量的问题，通过发展一种简单可计算的间隙函数，提供了最佳性间隙的上下界。研究表明，基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛，这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程，并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。

Sep, 2024

强健马尔可夫决策过程的策略梯度

本研究针对强健马尔可夫决策过程中的模型不确定性问题，提出了一种通用的策略梯度方法DRPMD，确保全局最优性。该方法通过适应性容忍度的镜像下降更新规则，提供了强健政策学习的新途径，并在多个复杂场景中验证了其强健性及全局收敛性。

Oct, 2024

稳健马尔可夫决策过程的策略梯度

本文研究了针对稳健马尔可夫决策过程（MDPs）的策略梯度方法，填补了模型歧义对学习稳健政策的挑战。提出了一种新颖的策略梯度方法——双循环稳健政策镜面下降（DRPMD），该方法通过适应性容忍度保证了全局最优政策的收敛。实验证明了DRPMD在各种稳健MDP设定下的稳健性和全局收敛性。

Oct, 2024