政策镜像下降算法固有地探索动作空间
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD),用于解决具有有限状态和动作空间的折扣、无限时间MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同Bregman散度之间进行扩展,以及是一些常见Bregman散度的有限时间精确收敛。
Jan, 2022
本研究考虑了无限期折扣马尔可夫决策过程,并研究了自然策略梯度和Q-NPG方法在对数线性策略类下的收敛速度及样本复杂性,其在非自适应几何递增步长下可以实现线性收敛率和样本复杂度的约为O(1/epsilon^2)。
Oct, 2022
深度策略算法解决高维度策略优化问题取得了巨大成功,但目前的分析无法解释它们为何对维度诅咒具有抵抗能力。本研究以卷积神经网络作为函数逼近器,研究了神经策略镜像下降 (NPMD) 算法的样本复杂性。通过观察高维度环境具有低维结构的经验现象,例如图像作为状态的环境,我们认为状态空间是嵌入在欧几里得空间中的 d 维流形,其中 d 远小于 D。我们证明在 NPMD 的每次迭代中,值函数和策略都可以很好地近似于卷积神经网络。逼近误差由网络的大小控制,并且可以继承以前网络的平滑性。因此,通过适当选择网络大小和超参数,在期望中,NPMD 可以通过大约 O(ε^(-d/α-2)) 个样本找到一个 ε-最优策略,其中 α ∈ (0,1] 表示环境的平滑性。与以前的研究相比,我们的结果显示 NPMD 可以利用状态空间的低维结构,摆脱维度诅咒,从而解释深度策略算法的有效性。
Sep, 2023
提出了一种名为$h$-PMD的新型PMD算法类,它将多步贪心策略改进与PMD更新规则相结合,以解决具有lookahead深度$h$的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。
Mar, 2024
本研究解决了强化学习中缺乏最佳性原则度量的问题,通过发展一种简单可计算的间隙函数,提供了最佳性间隙的上下界。研究表明,基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛,这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程,并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。
Sep, 2024
本研究针对强健马尔可夫决策过程中的模型不确定性问题,提出了一种通用的策略梯度方法DRPMD,确保全局最优性。该方法通过适应性容忍度的镜像下降更新规则,提供了强健政策学习的新途径,并在多个复杂场景中验证了其强健性及全局收敛性。
Oct, 2024
本文研究了针对稳健马尔可夫决策过程(MDPs)的策略梯度方法,填补了模型歧义对学习稳健政策的挑战。提出了一种新颖的策略梯度方法——双循环稳健政策镜面下降(DRPMD),该方法通过适应性容忍度保证了全局最优政策的收敛。实验证明了DRPMD在各种稳健MDP设定下的稳健性和全局收敛性。
Oct, 2024