带熵正则化的约束马尔可夫决策过程的双重方法
提出一种针对Markov决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态-动作分布进行正则化,将一些先进的熵-正则化强化学习算法形式化为Mirror Descent或Dual Averaging的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。
May, 2017
本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和Legendre-Fenchel变换,可以分析诸如Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic或Dynamic Policy Programming等经典算法的错误传播分析,并与Mirror Descent进行了连接。
Jan, 2019
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和Nesterov加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度O(1/ε)。
Oct, 2021
本文研究了策略梯度在无限时间,连续状态和动作空间,及熵正则化的马尔可夫决策过程中的全局收敛性,并证明了在符合足够正则化的情况下,梯度流指数级收敛到唯一的稳态解。
Jan, 2022
研究凸约束马尔可夫决策过程(CMDPs),提出基于策略的原始-对偶算法来解决优化问题和约束问题,通过隐藏在问题中的凸性证明了所提出的算法的全局收敛性,并以最优性差距和约束违规性表示,证明了算法的 $O(T^{-1/3})$ 收敛速度。
May, 2022
提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义,适用于动作和状态熵的任意混合,其中,动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。
Feb, 2023
本研究致力于学习具有鲁棒特性的Markov决策过程。通过分析规则化的Markov决策过程,我们建立了奖励鲁棒Markov决策过程和规则化Markov决策过程之间的联系,并将该关系扩展到具有不确定性转移的Markov决策过程。进一步地,我们推广了规则化MDPs到双重规则化MDPs,并在表格和物理领域进行了数值验证。
Mar, 2023
我们研究了具有Polish状态和动作空间的无限时段熵正则化马尔可夫决策过程的Fisher-Rao策略梯度流的全球收敛性。该流是策略镜像下降方法的连续时间模拟。我们建立了梯度流的全球适定性,并证明其指数级收敛到最优策略。此外,我们证明了该流在梯度评估方面的稳定性,从而揭示了以对数线性策略参数化的自然策略梯度流的性能。为了克服客观函数的非凸性和由熵正则化引起的不连续性引起的挑战,我们利用了性能差分引理和梯度与镜像下降流之间的对偶关系。
Oct, 2023
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权KL散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正则化奖励的梯度流之间的对应关系,提供了匹配我们的上界的下界,以多项式因子缩放。此外,我们还利用这种对应关系确定了梯度流的极大熵最优策略的极限,从而刻画了与Kakade梯度流所对应的自然策略梯度方法的时间连续版本的隐含偏差。我们利用这一结果表明,在熵正则化自然策略梯度方法中,整体误差随迭代次数的平方根呈指数级别衰减,从而改进了现有的亚线性保证。
Jun, 2024