一种参数化的策略优化近似梯度更新类

Jun, 2022

一种参数化的策略优化近似梯度更新类

A Parametric Class of Approximate Gradient Updates for Policy Optimization

Ramki Gummadi, Saurabh Kumar, Junfeng Wen, Dale Schuurmans

TL;DR研究了策略优化的不同方法，利用统一的视角，将其转化为梯度形式和比例函数的更新，在保证高度结构化的同时，得到了一些新的更新算法，可以在合成域和深度强化学习基准测试中得到非平凡的改进。

Abstract

Approaches to policy optimization have been motivated from diverse principles, based on how the parametric model is interpreted (e.g. value versus policy representation) or how the learning objective is formulate

policy optimization gradient updates deep rl benchmarks learning objective convergence speed

发现论文，激发创造

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

梯度信息启发式近端策略优化

通过将可微分环境的解析梯度与 Proximal Policy Optimization（PPO）算法相结合，我们引入了一种新颖的策略学习方法。通过自适应修改 alpha 值，我们可以有效管理学习过程中解析策略梯度的影响，并提出了评估解析梯度方差和偏差的度量标准，在检测到高方差或偏差时减少对这些梯度的依赖。我们的方法在函数优化、物理模拟和交通控制环境等各种场景中胜过基准算法。

Dec, 2023

政策梯度算法是否真的是梯度算法？

全球顶级会议发表的论文中存在误导性，关于 drop state distribution 中的折扣因素对于算法的影响，一些方法没有优化折扣奖励函数，因为它们优化的是逼近 Most method 更新方向的不可微、不存在导函数的函数，因此这些算法不保证会收敛到一个合理的最优解。

Jun, 2019

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

基于参数探索的策略梯度中的高效样本重用

本文提出一种有效的基于参数探索的政策梯度算法，通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想，成功地降低了算法的方差，从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。

Jan, 2013

梯度下降优化在策略梯度方法中的实证分析：我的最优解去哪了？

本论文研究不同的梯度下降优化方法对深度强化学习的影响，并发现适应性优化器有一个有效学习率的狭窄窗口，同时动量的有效性会因环境属性而异，为深度强化学习算法的优化提供了新的思路和建议。

Oct, 2018

多模态轨迹优化的重参数化策略学习

我们研究了在高维连续动作空间中参数化强化学习（RL）策略的挑战。我们的目标是开发一种多模式策略，以克服常用的高斯参数化方法固有的限制。为了实现这一目标，我们提出了一个原则性框架，将连续 RL 策略建模为最优轨迹的生成模型。通过将策略条件化于潜变量，我们导出了一种新颖的变分下界作为优化目标，以促进环境的探索。然后，我们提出了一种实用的基于模型的 RL 方法，称为重新参数化策略梯度（RPG），它利用多模式策略参数化和学习的世界模型来实现强大的探索能力和高效数据利用率。实证结果表明，我们的方法可以帮助 Agent 在具有密集奖励的任务中避免局部最优值，并通过结合面向对象的内在奖励来解决具有挑战性的稀疏奖励环境。我们的方法在各种任务中始终优于以前的方法。项目页面提供了代码和补充材料。

Jul, 2023