使用双时间尺度策略梯度算法的基于分位数的深度强化学习

May, 2023

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy Gradient Algorithms

Jinyang Jiang, Jiaqiao Hu, Yijie Peng

TL;DR在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

Abstract

Classical reinforcement learning (RL) aims to optimize the expected cumulative reward. In this work, we consider the RL setting where the goal is to optimize the quantile of the cumulative reward. We parameterize the policy controlling actions by →

reinforcement learning quantile optimization neural networks policy gradient algorithm deep rl

发现论文，激发创造

基于分位数的强化学习策略优化

本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量位和策略参数。

Jan, 2022

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

基于分位数约束的强化学习：约束失效概率的强化学习框架

本文提出了一种框架，名为 Quantile Constrained RL (QCRL)，用于约束累积成本总和的分布分位数，并利用 LDP 来估计 QCPO 中的分位数和尾概率。

Nov, 2022

深度 Q 学习和近端策略优化：在材料分类任务中的性能比较

本文基于 Petri 网仿真环境，比较了深度强化学习中的 DQN 和 PPO 算法。结果表明，PPO 在所有的评估指标上都表现优异，说明基于策略的算法在解决高维状态和动作空间问题上具有优势。该研究为深度强化学习在生产系统领域提供了不同算法的有效性和适用性。

Jun, 2023

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

基于视觉感知的风险感知机器抓取的分位数 QT-Opt

本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用，提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt，成功应用于视觉机器人夹取任务，并探究了其风险扭曲函数，同时采用批量强化学习算法进行实验，与以往变量离散的实验结果对比，结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。

Oct, 2019

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024