PPO 中的有色噪声：通过相关动作采样改进探索和性能

Dec, 2023

PPO 中的有色噪声：通过相关动作采样改进探索和性能

Colored Noise in PPO: Improved Exploration and Performance Through Correlated Action Sampling

Jakob Hollenstein, Georg Martius, Justus Piater

TL;DR基于彩色噪声的随机策略改进 PPO 探索性能和学习表现，建议在 PPO 中将相关噪声作为默认噪声源。

Abstract

proximal policy optimization (PPO), a popular on-policy deep reinforcement learning method, employs a stochastic policy for exploration. I

proximal policy optimization stochastic policy colored noise exploration learning performance

发现论文，激发创造

PPO-CMA：具有协方差矩阵适应性的近端策略优化

提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA，通过 adaptively 扩大 exploration variance 来加速算法优化速度，相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升，且不需要耗费大量篇幅调节参数。

Oct, 2018

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

强化学习的潜在探索

提出了 LATent TIme-Correlated Exploration (Lattice) 方法，用于在策略网络的潜在状态中注入时间上相关噪声，以优化高维输入到输出的复杂的运动控制任务中的策略学习，证明了有结构的动作噪声在时间和执行器空间上的有效性。

May, 2023

参数空间噪声用于探索

通过将参数噪声与传统深度强化学习方法相结合，可以在高维离散行动环境和连续控制任务中比传统深度强化学习方法和进化策略更有效地学习，并且在离散和连续领域中参数噪声会比动作空间噪声更优秀。

Jun, 2017

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

强化学习深度非同策略中的动作噪音：对探索和性能的影响

针对连续控制 R-DL 领域中的离线深度强化学习所采用的简单探索方式（如加性动作噪声），本文对动作噪音的类型、噪音规模、影响缩放因子的减少计划等进行了分析，并从 Gaussian 和 Ornstein-Uhlenbeck 这两个显著的类型中挑选合适的，通过实验表明，噪声的最佳类型和比例取决于环境，并根据观察结果提出了启发式规则来指导选择动作噪声。

Jun, 2022

近端策略优化的联合动作损失

本文提出了一种计算每个子动作损失的多动作混合损失，并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果，该方法可以将性能提高 50％以上，并且在 Gym-μRTS 中，子动作损失表现出优于标准 PPO 方法的效果，尤其是在截断范围较大时。

Jan, 2023

跨域行为策略优化的转导式离策略优化

这篇论文介绍了一种名为 Transductive Off-policy PPO（ToPPO）的新型离策略 PPO 方法，通过引入离策略数据，提供了在 PPO 训练中结合离策略数据的理论依据和安全应用的指导，包括从离策略数据中得出潜在策略的政策改进下界的新型公式以及优化该下界的高效机制，并通过全面实验结果展示了 ToPPO 的良好性能。

Jun, 2024

基于截断目标函数的消极策略优化的政策梯度

通过简单的目标调整，我们发现在连续行动空间中，将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能，并且这种悲观的优化促进了增强性探索，从而在单任务、约束和多任务学习中产生了改进的学习效果，而不增加显著的计算成本或复杂性。

Nov, 2023

ClothPPO：一个增强机器人布料操纵的近端策略优化框架，使用与观测对齐的动作空间

本文介绍了基于视觉的机器人布料展开的研究，引入了一个基于策略梯度算法和演员 - 评论家架构的框架 ClothPPO，通过优化和更新策略，提高了软体操作任务下布料展开的表现。实验结果表明，我们的方法可以进一步改善其他最先进方法的展开性能。

May, 2024