PPO 在合作多智能体游戏中令人惊讶的有效性
本文提出了一种名为 CoPPO 的算法,用于多智能体环境下的多项策略优化,并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配,解决了多智能体系统中同时更新智能体策略时高方差的问题,并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线,并与最新的多智能体 PPO 方法(即 MAPPO)相竞争。
Nov, 2021
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本文介绍了 Proximal Policy Optimization (PPO) 算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Sep, 2020
本文提出了一种计算每个子动作损失的多动作混合损失,并在 Gym-μRTS 和 MuJoCo 环境中进行了实验。结果表明相比于 OpenAI 的 PPO 基准结果,该方法可以将性能提高 50%以上,并且在 Gym-μRTS 中,子动作损失表现出优于标准 PPO 方法的效果,尤其是在截断范围较大时。
Jan, 2023
这篇论文介绍了一种名为 Transductive Off-policy PPO(ToPPO)的新型离策略 PPO 方法,通过引入离策略数据,提供了在 PPO 训练中结合离策略数据的理论依据和安全应用的指导,包括从离策略数据中得出潜在策略的政策改进下界的新型公式以及优化该下界的高效机制,并通过全面实验结果展示了 ToPPO 的良好性能。
Jun, 2024
本文介绍了一种名为 Truly PPO 的增强 PPO 方法,针对 PPO 在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了 PPO 在样本效率和性能方面的表现。
Mar, 2019
本研究通过提出一种基于乐观策略优化的方法(Optimistic Proximal Policy Optimization,OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,从而优化自主代理的学习效果,实现了在表格任务上优于现有方法的结果。
Jun, 2019
本研究针对增强学习领域中的近端政策优化(PPO)算法,在线性马尔科夫决策过程中引入乐观变体,提出了一种新的多批次更新机制,使用价值和策略类的新覆盖数论算法进行优化和分析,成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。
May, 2023
为了解决现有多智能体 PPO 算法在扩展 PPO 的理论保证到合作多智能体强化学习时的不兼容性问题,本文提出了一种新颖且多功能的多智能体 PPO 算法。该算法基于全流水线范例,通过采用不同的优势函数等效分解建立多个并行优化流水线,成功地更一般地形式化了个体之间的相互关联,使其与各种参数共享类型兼容。我们为策略改进提供了坚实的理论基础,并进一步通过多种近似方法开发了一种实用算法称为 Full-Pipeline PPO(FP3O)。对 Multi-Agent MuJoCo 和 StarCraftII 任务的实证评估表明,FP3O 胜过其他强基准,并在各种参数共享配置上表现出显著的多功能性。
Oct, 2023
这篇论文介绍了一种名为 P3O 的简单算法,它交替运用 on-policy 和 off-policy 更新,使用 behavior policy 和 target policy 之间的有效样本量控制它们之间的距离,以降低强化学习算法的采样复杂度。在 Atari-2600 和 MuJoCo 基准套件上的实验表明,这种算法可以有效地降低现有算法的采样复杂度。
May, 2019