随机镜面下降的政策优化

Jun, 2019

Policy Optimization with Stochastic Mirror Descent

Long Yang, Yu Zhang, Gang Zheng, Qian Zheng, Pengfei Li...

TL;DRVRMPO 算法提出一种新颖的方差缩减的策略梯度估计器，使用随机镜像下降方法提高样本利用效率，并通过推导证明只需要 O（ϵ−3）个采样轨迹即可达到 ϵ- 近似一阶稳定点，从而超越了各个领域最先进的策略梯度算法。

Abstract

Improving sample efficiency has been a longstanding goal in reinforcement learning. This paper proposes $\mathtt{VRMPO}$ algorithm: a sample efficient policy gradient method with →

reinforcement learning sample efficiency policy gradient stochastic mirror descent sample complexity

发现论文，激发创造

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

Bregman 梯度策略优化

本文提出了一种基于 Bregman 距离和动量技术的强化学习的 Bregman 梯度策略优化框架，通过基本动量技术和镜像下降迭代提出 Bregman 梯度策略优化（BGPO）算法，同时进一步提出基于方差降低技术的加速 Bregman 梯度策略优化（VR-BGPO）算法，并接着提出了对非凸情况下的 Bregman 梯度策略优化的收敛性分析框架，实验结果表明了该算法的高效性。

Jun, 2021

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

镜像下降策略优化

提出了一种称为镜像下降策略优化（Mirror Descent Policy Optimization，MDPO）的高效强化学习算法，MDPO 是一个迭代更新策略的算法，其目标函数由标准强化学习目标的线性化和一个限制连续策略之间接近的接近项组成，是由 MD 原则推导而来的，同时通过采取多个梯度步骤进行逼近。

May, 2020

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

随机镜像下降法高效求解 MDPs

通过基于原始 - 对偶随机镜像下降的统一框架，提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程，同时提出了解决双线性鞍点问题与约束 MDPs 的方法。

Aug, 2020

政策镜像下降算法固有地探索动作空间

本文所提出的新算法不依赖于探索策略，通过引入两个新的基于策略的评估算符和对 SPMD 算法的新颖分析，实现了在线策略梯度方法的样本复杂度的近似上界，无需显式探索，可以避免在寻找最优策略时反复执行潜在的高风险动作，具有更强的收敛性能。

Mar, 2023

V-MPO：基于最大后验策略优化的离散与连续控制的策略更新算法

本文研究了一种新的强化学习方法 V-MPO，基于学习到的状态值函数进行策略迭代以提高性能，在多个测试套件中实现了更好的成绩，在高维度、连续动作空间的问题中也取得了成功。

Sep, 2019

异构多智能体强化学习：镜像下降策略优化

该论文介绍了一种扩展的 Mirror Descent 方法，用于克服合作多智能体强化学习设置中的挑战，其中智能体具有不同的能力和个体策略。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法利用多智能体优势分解引理来实现每个智能体的高效策略更新，同时确保整体性能改进。通过通过解决信任域问题的近似解来迭代更新智能体策略，HAMDPO 保证了稳定性并提高了性能。此外，HAMDPO 算法能够处理多样化智能体在各种 MARL 问题中连续和离散的动作空间。我们在 Multi-Agent MuJoCo 和 StarCraftII 任务上评估了 HAMDPO，证明其在 HATRPO 和 HAPPO 等最先进算法方面的优越性。这些结果表明，HAMDPO 是解决合作 MARL 问题的一种有希望的方法，可能还可以扩展到解决 MARL 领域中的其他挑战性问题。

Aug, 2023

随机方差减小策略梯度的收敛性改进分析

研究改进了 SVRPG 方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019