受限马尔可夫决策过程中的一般参数化策略的最后迭代收敛性
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了$ extit{非渐进}$收敛保证,并专注于受softmax参数化限制的比例调节的策略梯度算法, 重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
本文研究了策略梯度在无限时间,连续状态和动作空间,及熵正则化的马尔可夫决策过程中的全局收敛性,并证明了在符合足够正则化的情况下,梯度流指数级收敛到唯一的稳态解。
Jan, 2022
研究凸约束马尔可夫决策过程(CMDPs),提出基于策略的原始-对偶算法来解决优化问题和约束问题,通过隐藏在问题中的凸性证明了所提出的算法的全局收敛性,并以最优性差距和约束违规性表示,证明了算法的 $O(T^{-1/3})$ 收敛速度。
May, 2022
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始-对偶方法来解决Constrained Markov决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
提出一种新颖的C-NPG-PD算法以达到全局最优并减少训练样例复杂度,解决了连续状态-动作空间下的限制马尔可夫决策过程问题。
Jun, 2022
本文介绍了利用Lagrangian方法将约束马尔可夫决策过程转化为有约束鞍点问题的优化方法,提出了两种单时间尺度的基于原始对偶算法的策略算法,可以使策略迭代收敛到一个最优受限策略。其中一个采用了一种正则化策略梯度算法,另一个采用了一种乐观的策略梯度算法。这是约束MDPs单时间尺度算法中第一个非渐进策略最终迭代收敛结果。
Jun, 2023
设计高效学习算法解决无限时间折扣奖励马尔可夫决策过程问题,提出了应用加速随机梯度下降过程获取自然策略梯度的加速自然策略梯度算法(ANPG)。ANPG在一般参数化情况下,实现了O(ε^-2)的样本复杂度和O(ε^-1)的迭代复杂度,其中ε定义了最优性误差。相比现有技术,ANPG通过一个log(1/ε)因子改进了样本复杂度。ANPG是一个一阶算法,并且不需要假设重要性采样权重的方差有上界,这与一些现有文献不同。在无Hessian和无重要性采样算法类别中,ANPG的样本复杂度超过了已知算法的O(ε^-1/2)倍,并与他们的迭代复杂度相匹配。
Oct, 2023
在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度O(ε^(-6))
Dec, 2023
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始-对偶加速自然策略梯度(PD-ANPG)算法,它保证了ε全局最优性差距和ε约束违反,样本复杂度为O(ε^-3),从而在CMDP的样本复杂度上取得了O(ε^-1)的进展。
May, 2024