绝对政策优化

Oct, 2023

Absolute Policy Optimization

Weiye Zhao, Feihan Li, Yifan Sun, Rui Chen, Tianhao Wei...

TL;DR最近几年，基于信任区域的在线强化学习在解决复杂控制任务和游戏场景方面取得了显著成果。然而，该类别内现有的最先进算法主要强调期望性能的提升，缺乏对最坏情况下性能结果的控制能力。为了解决这一局限性，我们引入了一种新的目标函数；通过优化该函数，将保证在近乎完全性能样本（绝对性能）的下界上实现单调提升。鉴于这一破创性的理论进展，我们通过一系列近似对该理论基础算法进行了改进，得到了一种实用的解决方案，称为绝对策略优化（APO）。我们的实验证明了我们的方法在具有挑战性的连续控制基准任务上的有效性，并将其适用性扩展到掌握 Atari 游戏。我们的研究结果表明，APO 明显优于最先进的策略梯度算法，在期望性能和最坏情况下性能方面都取得了实质性的改进。

Abstract

In recent years, trust region on-policy reinforcement learning has achieved impressive results in addressing complex control tasks and gaming scenarios. However, contemporary state-of-the-art algorithms within this category primarily emphasize improvement in expected performance, lacki

trust region on-policy reinforcement learning worst-case performance near-total performance samples absolute policy optimization policy gradient algorithms

发现论文，激发创造

最大后验策略优化

介绍了一种基于最大后验策略优化的强化学习算法，并开发出两种离线策略算法，证明了它们在深度强化学习方面与现有方法的竞争力，并在连续控制方面提高了样本效率，避免了过早收敛和对超参数设置的鲁棒性。

Jun, 2018

使用信任域方法的平均奖励强化学习

本文探讨了长期平均目标下的强化学习问题，提出了一种统一的信任区域理论和一种名为 APO 的实用算法，该算法可以改进价值估计，并且在大部分任务中表现优于折扣 PPO，提出的框架可能会补充折扣目标的强化学习框架。

Jun, 2021

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

真正靠近策略优化

本文介绍了一种名为 Truly PPO 的增强 PPO 方法，针对 PPO 在优化行为方面存在的问题进行了改进，通过使用新的剪辑函数来支持回滚行为，使用基于可信区域的触发条件替换剪辑的触发条件，从而提供了保证的拟态策略性能单调改进，从而改善了 PPO 在样本效率和性能方面的表现。

Mar, 2019

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

深度强化学习中的对抗策略优化

本文提出了一种新的强化学习算法 APO，该算法利用 max-min 博弈理论减轻数据扩充带来的过拟合问题，提高了学习策略的效率，并对几个 DeepMind 控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明，我们的方法 APO 在性能上始终优于最先进的基于策略的 PPO 代理，并且与最先进的数据增强，RAD 和基于正式的 DRAC 等方法进行了比较。

Apr, 2023

平均受限策略优化

本论文提出针对平均准则的受约束 MDPs 的一种新的（可能是第一种）策略优化算法 —— 平均约束策略优化（ACPO）算法，通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限，提供其性能的理论保证，并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作，展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。

Feb, 2023

自适应上界置信度增强的近端策略优化

通过引入自适应 PPO-CLIP（Adaptive-PPO）方法，动态探索和利用带卡尔曼滤波的剪辑边界，在线训练过程中改善 PPO 的性能，并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。

Dec, 2023