块策略镜像下降
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了 PMD 方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题,具有线性收敛特性,支持一般类别的凸正则化器,并在数值实验中得到验证。
May, 2021
提出了一种新的策略梯度方法 —— 同伦策略镜像下降 (HPMD),用于解决具有有限状态和动作空间的折扣、无限时间 MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同 Bregman 散度之间进行扩展,以及是一些常见 Bregman 散度的有限时间精确收敛。
Jan, 2022
提出了一种称为镜像下降策略优化(Mirror Descent Policy Optimization,MDPO)的高效强化学习算法,MDPO 是一个迭代更新策略的算法,其目标函数由标准强化学习目标的线性化和一个限制连续策略之间接近的接近项组成,是由 MD 原则推导而来的,同时通过采取多个梯度步骤进行逼近。
May, 2020
研究无限时间折扣马尔可夫决策问题,并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度,包括不需要熵或其他强凸正则化的自然策略梯度方法及投影 Q - 下降方法,并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。
Jan, 2022
本篇论文介绍了一种新的随机算法 ——Stochastic Block Mirror Descent(SBMD)方法,用于解决大规模非光滑和随机优化问题,其通过加入块状坐标分解和增量式块状平均方案到经典(随机)镜像下降法中,以显著降低后者算法的每次迭代成本。我们建立了 SBMD 方法的收敛速率及其相关的大偏差结果,用于解决一般的非光滑和随机优化问题。此外,我们还介绍了此方法的不同变体,并建立了它们用于解决强凸,平滑,复合和某些非凸优化问题的收敛速率。据我们所知,所有这些 SBMD 方法的发展都是随机优化文献中的新成果。此外,我们的一些结果对于块状坐标下降方法中的确定性优化也是新的。
Sep, 2013
该论文探讨了基于在线凸优化的强化学习的新框架,特别是镜像下降及相关算法,提出了一种新的类似于梯度下降的迭代方法。其中,基于不同 Bregman 散度的抛物线梯度强化学习法比常规 TD 学习更为普适。还提出了一种新型的稀疏镜像下降强化学习方法,相比之前基于二阶矩阵方法的方法,在寻找一个 l1 正则化 Bellman 方程的稀疏不动点时具有显著的计算优势。
Oct, 2012
我们提出了一类基于镜像下降的高效自适应双层优化方法,用于求解非凸双层优化问题,其中上层问题可能是非凸的且具有非光滑正则化,而下层问题也是非凸的但满足 Polyak-Lojasiewicz 条件。我们提出了一种基于镜像下降的高效自适应投影梯度方法来解决确定性双层问题,并证明其在寻找非凸双层问题的 ε- 稳定解时具有已知最好的梯度复杂度 O (ε^(-1))。为了解决随机双层问题,我们提出了一种基于镜像下降和方差约减技术的高效自适应随机投影梯度方法,并证明其在寻找 ε- 稳定解时具有已知最好的梯度复杂度 O (ε^(-3/2))。由于 Polyak-Lojasiewicz 条件放宽了强凸性,我们的算法可以用于非凸强凸双层优化问题。从理论上讲,我们在一些温和条件下提供了有用的收敛性分析框架,并证明了我们的方法具有较快的收敛速度 O (1/T),其中 T 表示迭代次数。
Nov, 2023
提出了一种名为 $h$-PMD 的新型 PMD 算法类,它将多步贪心策略改进与 PMD 更新规则相结合,以解决具有 lookahead 深度 $h$ 的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。
Mar, 2024
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022