随机镜面下降的政策优化
本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。
Oct, 2017
本文提出了一种基于 Bregman 距离和动量技术的强化学习的 Bregman 梯度策略优化框架,通过基本动量技术和镜像下降迭代提出 Bregman 梯度策略优化(BGPO)算法,同时进一步提出基于方差降低技术的加速 Bregman 梯度策略优化(VR-BGPO)算法,并接着提出了对非凸情况下的 Bregman 梯度策略优化的收敛性分析框架,实验结果表明了该算法的高效性。
Jun, 2021
提出了一种称为镜像下降策略优化(Mirror Descent Policy Optimization,MDPO)的高效强化学习算法,MDPO 是一个迭代更新策略的算法,其目标函数由标准强化学习目标的线性化和一个限制连续策略之间接近的接近项组成,是由 MD 原则推导而来的,同时通过采取多个梯度步骤进行逼近。
May, 2020
本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法,即 SVRPG,旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题,并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下,我们提供了 SVRPG 的收敛保证,收敛速率在增加批处理大小下呈线性。最后,我们建议实际的 SVRPG 变体,并在连续 MDP 上进行了实证评估。
Jun, 2018
通过基于原始 - 对偶随机镜像下降的统一框架,提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程,同时提出了解决双线性鞍点问题与约束 MDPs 的方法。
Aug, 2020
本文所提出的新算法不依赖于探索策略,通过引入两个新的基于策略的评估算符和对 SPMD 算法的新颖分析,实现了在线策略梯度方法的样本复杂度的近似上界,无需显式探索,可以避免在寻找最优策略时反复执行潜在的高风险动作,具有更强的收敛性能。
Mar, 2023
本文研究了一种新的强化学习方法 V-MPO,基于学习到的状态值函数进行策略迭代以提高性能,在多个测试套件中实现了更好的成绩,在高维度、连续动作空间的问题中也取得了成功。
Sep, 2019
该论文介绍了一种扩展的 Mirror Descent 方法,用于克服合作多智能体强化学习设置中的挑战,其中智能体具有不同的能力和个体策略。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法利用多智能体优势分解引理来实现每个智能体的高效策略更新,同时确保整体性能改进。通过通过解决信任域问题的近似解来迭代更新智能体策略,HAMDPO 保证了稳定性并提高了性能。此外,HAMDPO 算法能够处理多样化智能体在各种 MARL 问题中连续和离散的动作空间。我们在 Multi-Agent MuJoCo 和 StarCraftII 任务上评估了 HAMDPO,证明其在 HATRPO 和 HAPPO 等最先进算法方面的优越性。这些结果表明,HAMDPO 是解决合作 MARL 问题的一种有希望的方法,可能还可以扩展到解决 MARL 领域中的其他挑战性问题。
Aug, 2023