基于分位数的强化学习策略优化
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimization(QPPO)算法来解决深度强化学习问题,实验结果表明该方法在分位数优化指标下优于现有基准算法。
May, 2023
本文提出了一种框架,名为 Quantile Constrained RL (QCRL),用于约束累积成本总和的分布分位数,并利用 LDP 来估计 QCPO 中的分位数和尾概率。
Nov, 2022
本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人,PPGA 算法在人形机器人领域实现了 4 倍的改进。
May, 2023
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。
Jul, 2020
本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用,提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt,成功应用于视觉机器人夹取任务,并探究了其风险扭曲函数,同时采用批量强化学习算法进行实验,与以往变量离散的实验结果对比,结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。
Oct, 2019
本文介绍了一种基于分布式强化学习的方法,通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法,并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能,并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。
Jun, 2018
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本文基于 Petri 网仿真环境,比较了深度强化学习中的 DQN 和 PPO 算法。结果表明,PPO 在所有的评估指标上都表现优异,说明基于策略的算法在解决高维状态和动作空间问题上具有优势。该研究为深度强化学习在生产系统领域提供了不同算法的有效性和适用性。
Jun, 2023
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
May, 2023