线性函数逼近的谨慎乐观策略优化与探索
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本研究提出了一种新的算法,投影约束策略优化(PCPO),用于学习控制策略,以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束,结果表明与现有的方法相比,PCPO 在多个控制任务中的表现优异,约束违反率平均低至 3.5 倍左右,奖励水平约高 15% 左右。
Oct, 2020
介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
Jul, 2020
基于神经网络的价值函数的近似是领先的基于策略的方法(如 Trust Regional Policy Optimization (TRPO) 和 Proximal Policy Optimization (PPO))的核心。然而,在状态空间和行动空间较低的环境中,计算复杂的神经网络架构与简单的价值函数近似方法相比,提供的改进幅度较小。本文提出了基于自然策略梯度方法的自然演员 - 评论员算法实现,并认为在这些环境中,以线性函数近似为范例的自然策略梯度方法可能超过 TRPO 和 PPO 等基于神经网络的模型的性能和速度。我们观察到,在强化学习基准 Cart Pole 和 Acrobot 上,我们的算法训练速度比复杂的神经网络架构快得多,并获得相等或更好的结果。这使我们能够推荐在传统和稀疏奖励低维问题中使用以线性函数近似为范例的自然策略梯度方法,而不是 TRPO 和 PPO。
May, 2024
通过简单的目标调整,我们发现在连续行动空间中,将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能,并且这种悲观的优化促进了增强性探索,从而在单任务、约束和多任务学习中产生了改进的学习效果,而不增加显著的计算成本或复杂性。
Nov, 2023
本文提出了一种名为 CoPPO 的算法,用于多智能体环境下的多项策略优化,并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配,解决了多智能体系统中同时更新智能体策略时高方差的问题,并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线,并与最新的多智能体 PPO 方法(即 MAPPO)相竞争。
Nov, 2021
本研究针对增强学习领域中的近端政策优化(PPO)算法,在线性马尔科夫决策过程中引入乐观变体,提出了一种新的多批次更新机制,使用价值和策略类的新覆盖数论算法进行优化和分析,成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。
May, 2023
该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略,利用本地约束策略优化(LCPO)来优化当前经验,基于旧经验进行策略衔接,有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证,结果表明,它在在线设置下优于最先进的策略和离线策略学习方法,并且达到了预先训练整个输入跟踪的离线代理的水平。
Feb, 2023
研究利用理论达到策略提升保证的同时,结合较高的数据效率进行决策,通过广义的近端优化,基于样本的有效复用,实现了稳定性和样本效率之间的有效平衡,从而在表现上有了提高。
Oct, 2021