策略镜像下降与前瞻
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题,具有线性收敛特性,支持一般类别的凸正则化器,并在数值实验中得到验证。
May, 2021
本研究提出了一种名为Mirror Learning的新理论框架,为包括TRPO和PPO在内的大类算法提供理论保证,这说明现代深度强化学习算法的实际表现是其理论特性的直接结果,而不是先前提到的近似类比,从而使我们自由地探索新颖的、理论上可行的RL算法,这是一个迄今未开发的奇妙世界。
Jan, 2022
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD),用于解决具有有限状态和动作空间的折扣、无限时间MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同Bregman散度之间进行扩展,以及是一些常见Bregman散度的有限时间精确收敛。
Jan, 2022
我们的研究发现,传统的镜像映射选择(NPG)在多个标准基准环境下往往产生次优结果。通过应用元学习方法,我们确定了提高性能的更有效的镜像映射,并分析了这些学习到的镜像映射的特点,揭示了某些设置之间的共享特征。我们的结果表明,镜像映射有潜力在各种环境中适应,这引发了如何最好地将镜像映射与环境的结构和特性相匹配的问题。
Feb, 2024
本研究解决了强化学习中缺乏最佳性原则度量的问题,通过发展一种简单可计算的间隙函数,提供了最佳性间隙的上下界。研究表明,基本的政策镜像下降法在确定性和随机性设置下表现出快速的无分布收敛,这一新结果有助于在强多项式时间内解决未正则化的马尔可夫决策过程,并在运行随机政策镜像下降时无需额外样本即可获得准确性估计。
Sep, 2024
本研究针对强健马尔可夫决策过程中的模型不确定性问题,提出了一种通用的策略梯度方法DRPMD,确保全局最优性。该方法通过适应性容忍度的镜像下降更新规则,提供了强健政策学习的新途径,并在多个复杂场景中验证了其强健性及全局收敛性。
Oct, 2024
本文研究了针对稳健马尔可夫决策过程(MDPs)的策略梯度方法,填补了模型歧义对学习稳健政策的挑战。提出了一种新颖的策略梯度方法——双循环稳健政策镜面下降(DRPMD),该方法通过适应性容忍度保证了全局最优政策的收敛。实验证明了DRPMD在各种稳健MDP设定下的稳健性和全局收敛性。
Oct, 2024