基于模型重参数化的策略梯度方法：理论与实用算法

Oct, 2023

基于模型重参数化的策略梯度方法：理论与实用算法

Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms

Shenao Zhang, Boyi Liu, Zhaoran Wang, Tuo Zhao

TL;DR对长期强化学习问题应用基于模型的 ReParameterization Policy Gradient Methods 时，可能遇到爆炸梯度方差引起的优化困难。通过对模型的收敛性和函数逼近器的平滑性的分析，我们提出了一种谱归一化方法以缓解长模型展开引起的方差问题。实验结果表明，适当的归一化显著降低了基于模型的 ReParameterization Policy Gradient Methods 的梯度方差。与 Likelihood Ratio 梯度估计器等其他梯度估计器相比，我们的方法的性能相当或更好。

Abstract

ReParameterization (RP) Policy Gradient Methods (PGMs) have been widely adopted for continuous control tasks in robotics and computer graphics. However, recent studies have revealed that, when applied to long-term reinforcement learning problems, model-based RP PGMs may experience chaotic and non-smooth optimization landscapes with exploding →

reparameterization policy gradient methods long-term reinforcement learning chaotic optimization landscapes spectral normalization method gradient variance

发现论文，激发创造

多模态轨迹优化的重参数化策略学习

我们研究了在高维连续动作空间中参数化强化学习（RL）策略的挑战。我们的目标是开发一种多模式策略，以克服常用的高斯参数化方法固有的限制。为了实现这一目标，我们提出了一个原则性框架，将连续 RL 策略建模为最优轨迹的生成模型。通过将策略条件化于潜变量，我们导出了一种新颖的变分下界作为优化目标，以促进环境的探索。然后，我们提出了一种实用的基于模型的 RL 方法，称为重新参数化策略梯度（RPG），它利用多模式策略参数化和学习的世界模型来实现强大的探索能力和高效数据利用率。实证结果表明，我们的方法可以帮助 Agent 在具有密集奖励的任务中避免局部最优值，并通过结合面向对象的内在奖励来解决具有挑战性的稀疏奖励环境。我们的方法在各种任务中始终优于以前的方法。项目页面提供了代码和补充材料。

Jul, 2023

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

广义的重新参数化梯度

本文提出广义重参数化梯度，将此技术拓展到更大范围的变分分布，使用潜在变量的可逆变换，组合重参数化梯度和分数函数梯度得到新的 Monte Carlo 梯度，并在两个复杂的概率模型上展示了其高效性。

Oct, 2016

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

改进的 (方差减少的) 策略梯度和自然策略梯度方法分析

该论文重新审视和改进策略梯度方法、自然策略梯度方法及其方差减少版本在一般平滑策略参数化下的收敛性，尤其是通过正定的策略的 Fisher 信息阵表明了一种最先进的方差减少策略梯度方法在策略参数化方面仍然存在函数逼近误差，而自然策略梯度方法具有更低的样本复杂度。

Nov, 2022

强化学习的鲁棒性策略梯度方法

开发了具有全局最优性保证和复杂度分析的政策梯度方法，用于处理模型不匹配下的鲁棒强化学习，提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法，并将方法推广到广泛的非模型设置下，提供了仿真结果证明了方法的鲁棒性。

May, 2022

POMDP 问题的循环自然策略梯度

研究基于循环神经网络（RNNs）的自然策略梯度方法，用于部分可观测的马尔可夫决策过程，其中 RNNs 用于策略参数化和策略评估，以解决非马尔可夫强化学习中的维度问题。通过有限时间和有限宽度的分析，我们证明了 RNN 在具有短期记忆问题的情况下的效率，并明确了所需网络宽度和样本复杂性的界限，同时指出了长期依赖情况下的挑战。

May, 2024

基于参数探索的策略梯度中的高效样本重用

本文提出一种有效的基于参数探索的政策梯度算法，通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想，成功地降低了算法的方差，从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。

Jan, 2013

隐式重参数化梯度

提供了一种简单而高效的计算持续性随机变量低方差梯度的方法，称为重新参数化技巧，但它并不适用于许多重要的连续分布。本文通过隐式微分介绍了一种计算重新参数化梯度的替代方法，并证明了其对 Gamma，Beta，Dirichlet 和 von Mises 分布具有更广泛的适用性，并且实验表明所提出的方法比现有的梯度估计方法更快，更准确。

May, 2018

策略梯度方法的矩阵低秩近似

基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度，同时实现了类似的累积奖励。

May, 2024