深度强化学习中的鲁棒策略优化
近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO),用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作,RPO 算法采用了 GRG 的方法生成基本动作,并通过等式约束求解得到非基本动作。另外,还引入了基于减少梯度的动作投影过程,并应用改进的拉格朗日松弛技术来确保不等式约束得到满足。此外,为了解决目前缺乏复杂硬约束环境的问题,我们开发了三个新的基准测试任务:两个机器人操作任务和一个智能电网运行控制任务。通过这些基准测试,RPO 算法在累积奖励和约束违规方面显示出比之前的约束强化学习算法更好的性能。我们相信 RPO 算法及其新的基准测试将为将 RL 应用于具有复杂约束的现实问题打开新的机遇。
Oct, 2023
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
May, 2023
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本文提出了一种新的强化学习算法 APO,该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理,并且与最先进的数据增强,RAD 和基于正式的 DRAC 等方法进行了比较。
Apr, 2023
基于策略梯度的强化学习代理为了多样性,探究了正则化对行动多样性的影响,并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势,同时不损失准确性。
Oct, 2023
本文提出了一种新的深度强化学习算法,利用基于熵正则化的期望回报目标推导出软策略梯度,将其与软 Bellman 方程相结合,得到了名为 DSPG 的最大熵深度强化学习算法,该算法采用双重采样方法确保学习的稳定性,有效提高了表现,克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。
Sep, 2019
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
该论文介绍了一种新的基于策略的扩展方法 —— 反思性策略优化(RPO),它将过去和未来的状态 - 动作信息结合起来以进行策略优化,从而使智能体能够自我审视并在当前状态下修改其动作。理论分析证实了政策绩效的递增和解集空间的收缩,从而加快了收敛过程。经验证据表明,在两个强化学习基准测试中,RPO 在样本效率方面表现出了显著的优势。
Jun, 2024