策略镜像下降与前瞻
提出了一种新的策略梯度方法 —— 同伦策略镜像下降 (HPMD),用于解决具有有限状态和动作空间的折扣、无限时间 MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时获得非渐近最优策略和极大信息熵的极限策略,在不同 Bregman 散度之间进行扩展,以及是一些常见 Bregman 散度的有限时间精确收敛。
Jan, 2022
提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题,具有线性收敛特性,支持一般类别的凸正则化器,并在数值实验中得到验证。
May, 2021
我们的研究发现,传统的镜像映射选择(NPG)在多个标准基准环境下往往产生次优结果。通过应用元学习方法,我们确定了提高性能的更有效的镜像映射,并分析了这些学习到的镜像映射的特点,揭示了某些设置之间的共享特征。我们的结果表明,镜像映射有潜力在各种环境中适应,这引发了如何最好地将镜像映射与环境的结构和特性相匹配的问题。
Feb, 2024
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了 PMD 方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
提出了一种称为镜像下降策略优化(Mirror Descent Policy Optimization,MDPO)的高效强化学习算法,MDPO 是一个迭代更新策略的算法,其目标函数由标准强化学习目标的线性化和一个限制连续策略之间接近的接近项组成,是由 MD 原则推导而来的,同时通过采取多个梯度步骤进行逼近。
May, 2020
通过基于原始 - 对偶随机镜像下降的统一框架,提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程,同时提出了解决双线性鞍点问题与约束 MDPs 的方法。
Aug, 2020
该论文介绍了一种扩展的 Mirror Descent 方法,用于克服合作多智能体强化学习设置中的挑战,其中智能体具有不同的能力和个体策略。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法利用多智能体优势分解引理来实现每个智能体的高效策略更新,同时确保整体性能改进。通过通过解决信任域问题的近似解来迭代更新智能体策略,HAMDPO 保证了稳定性并提高了性能。此外,HAMDPO 算法能够处理多样化智能体在各种 MARL 问题中连续和离散的动作空间。我们在 Multi-Agent MuJoCo 和 StarCraftII 任务上评估了 HAMDPO,证明其在 HATRPO 和 HAPPO 等最先进算法方面的优越性。这些结果表明,HAMDPO 是解决合作 MARL 问题的一种有希望的方法,可能还可以扩展到解决 MARL 领域中的其他挑战性问题。
Aug, 2023
本文提出了一种新的策略梯度方法,即基于块的策略镜像下降(BPMD)方法,用于解决一类带有(强)凸正则化器的强化学习(RL)问题,通过部分更新规则执行已采样状态上的策略更新,从而实现了每次迭代计算代价的降低,并且在分析多种采样方案时达到快速的线性收敛。
Jan, 2022
本文所提出的新算法不依赖于探索策略,通过引入两个新的基于策略的评估算符和对 SPMD 算法的新颖分析,实现了在线策略梯度方法的样本复杂度的近似上界,无需显式探索,可以避免在寻找最优策略时反复执行潜在的高风险动作,具有更强的收敛性能。
Mar, 2023
我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略,通过应用自适应在线镜像下降算法,在信息集中使用逐渐减小的学习率和正则化损失,我们证明了该方法在高概率下能够保证收敛速度为~T^(-1/2),并且在理论上的最佳学习率和采样策略选择时,对于游戏参数的依赖性接近最优。为了实现这些结果,我们扩展了对 OMD 稳定性的概念,允许随时间变化的凸增量正则化。
Sep, 2023