PPO-Clip实现全局最优性:对裁剪更深入的理解
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
本文介绍了使用神经网络参数化的演员评论家的政策梯度方法,证明了在超参数化范围内,神经自然策略梯度以亚线性速率收敛到全局最优策略,并且神经普通策略梯度以亚线性速率收敛到稳态点。同时证明了共享神经结构和随机初始化是全局最优解和收敛的关键。该分析为神经策略梯度方法的全局最优性和收敛性提供了第一个保证。
Aug, 2019
本文介绍了Proximal Policy Optimization (PPO)算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Sep, 2020
本文研究了PPO类算法的梯度的重尾性质,并提出了一个高维鲁棒估计器GMOM来替代几个剪切技巧,解决梯度重尾的问题,实验表明在MuJoCo测试任务上表现出与PPO相当的性能。
Feb, 2021
本文探讨了比例剪切 PPO 方法的缺陷,提出了一种名为 ESPO 的早停策略优化算法,通过在多个连续控制任务上的比较,发现 ESPO 显著优于 PPO,而且能够轻松扩展到使用多个工作器进行分布式训练。
Jan, 2022
研究了策略优化的不同方法,利用统一的视角,将其转化为梯度形式和比例函数的更新,在保证高度结构化的同时,得到了一些新的更新算法,可以在合成域和深度强化学习基准测试中得到非平凡的改进。
Jun, 2022
本文提出了一种计算每个子动作损失的多动作混合损失,并在Gym-μRTS和MuJoCo环境中进行了实验。结果表明相比于OpenAI的PPO基准结果,该方法可以将性能提高50%以上,并且在Gym-μRTS中,子动作损失表现出优于标准PPO方法的效果,尤其是在截断范围较大时。
Jan, 2023
本研究针对增强学习领域中的近端政策优化(PPO)算法,在线性马尔科夫决策过程中引入乐观变体,提出了一种新的多批次更新机制,使用价值和策略类的新覆盖数论算法进行优化和分析,成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。
May, 2023
通过简单的目标调整,我们发现在连续行动空间中,将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能,并且这种悲观的优化促进了增强性探索,从而在单任务、约束和多任务学习中产生了改进的学习效果,而不增加显著的计算成本或复杂性。
Nov, 2023
通过引入自适应PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善PPO的性能,并通过大量实验初步证明我们的自适应PPO对比PPO-CLIP表现出的样本效率和性能。
Dec, 2023