带正则化的政策镜像下降算法:具有线性收敛的广义框架
提出一种针对Markov决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态-动作分布进行正则化,将一些先进的熵-正则化强化学习算法形式化为Mirror Descent或Dual Averaging的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。
May, 2017
本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和Legendre-Fenchel变换,可以分析诸如Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic或Dynamic Policy Programming等经典算法的错误传播分析,并与Mirror Descent进行了连接。
Jan, 2019
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
本研究提出了一种名为Mirror Learning的新理论框架,为包括TRPO和PPO在内的大类算法提供理论保证,这说明现代深度强化学习算法的实际表现是其理论特性的直接结果,而不是先前提到的近似类比,从而使我们自由地探索新颖的、理论上可行的RL算法,这是一个迄今未开发的奇妙世界。
Jan, 2022
本文提出了一种新的策略梯度方法,即基于块的策略镜像下降(BPMD)方法,用于解决一类带有(强)凸正则化器的强化学习(RL)问题,通过部分更新规则执行已采样状态上的策略更新,从而实现了每次迭代计算代价的降低,并且在分析多种采样方案时达到快速的线性收敛。
Jan, 2022
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影Q-下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
提出了一种新的策略梯度方法——同伦策略镜像下降(HPMD),用于解决具有有限状态和动作空间的折扣、无限时间MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同Bregman散度之间进行扩展,以及是一些常见Bregman散度的有限时间精确收敛。
Jan, 2022
本文研究了使用生成模型的无模型强化学习的样本复杂性,重点分析了使用Kullback-Leibler散度和熵正则化在值和策略更新中的Geist等人(2019)和Vieillard等人的Mirror descent value iteration(MDVI),并证明了在ε足够小的情况下,该算法几乎是极小值-最优的,这是第一个证明了在所考虑的条件下,一个简单的无模型算法(不执行方差缩减)几乎是极小值-最优的理论结果。
May, 2022
提出了一种名为$h$-PMD的新型PMD算法类,它将多步贪心策略改进与PMD更新规则相结合,以解决具有lookahead深度$h$的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。
Mar, 2024
通过使用条件均值嵌入学习环境的世界模型,并利用RL的操作性表达式进行矩阵运算,结合Policy Mirror Descent(PMD)估计量,我们提出了一个新的RL算法POWR,证明了其收敛速度达到全局最优。实验结果表明我们的方法在有限和无限状态设置下是有效的。
Jun, 2024