提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA,通过 adaptively 扩大 exploration variance 来加速算法优化速度,相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升,且不需要耗费大量篇幅调节参数。
Oct, 2018
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
提出了 LATent TIme-Correlated Exploration (Lattice) 方法,用于在策略网络的潜在状态中注入时间上相关噪声,以优化高维输入到输出的复杂的运动控制任务中的策略学习,证明了有结构的动作噪声在时间和执行器空间上的有效性。
May, 2023
通过将参数噪声与传统深度强化学习方法相结合,可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习,并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。
Jun, 2017
本研究通过四个流行的多智能体测试环境,证明了基于 PPO 的多智能体算法表现出令人惊讶的性能,并降低了样本复杂度,显示出它可以成为协同多智能体强化学习中的强基线方法。
Mar, 2021
针对连续控制 R-DL 领域中的离线深度强化学习所采用的简单探索方式(如加性动作噪声),本文对动作噪音的类型、噪音规模、影响缩放因子的减少计划等进行了分析,并从 Gaussian 和 Ornstein-Uhlenbeck 这两个显著的类型中挑选合适的,通过实验表明,噪声的最佳类型和比例取决于环境,并根据观察结果提出了启发式规则来指导选择动作噪声。
Jun, 2022
本文提出了一种计算每个子动作损失的多动作混合损失,并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果,该方法可以将性能提高 50%以上,并且在 Gym-μRTS 中,子动作损失表现出优于标准 PPO 方法的效果,尤其是在截断范围较大时。
Jan, 2023
这篇论文介绍了一种名为 Transductive Off-policy PPO(ToPPO)的新型离策略 PPO 方法,通过引入离策略数据,提供了在 PPO 训练中结合离策略数据的理论依据和安全应用的指导,包括从离策略数据中得出潜在策略的政策改进下界的新型公式以及优化该下界的高效机制,并通过全面实验结果展示了 ToPPO 的良好性能。
Jun, 2024
通过简单的目标调整,我们发现在连续行动空间中,将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能,并且这种悲观的优化促进了增强性探索,从而在单任务、约束和多任务学习中产生了改进的学习效果,而不增加显著的计算成本或复杂性。
Nov, 2023
本文介绍了基于视觉的机器人布料展开的研究,引入了一个基于策略梯度算法和演员 - 评论家架构的框架 ClothPPO,通过优化和更新策略,提高了软体操作任务下布料展开的表现。实验结果表明,我们的方法可以进一步改善其他最先进方法的展开性能。
May, 2024