可微分信任域层用于深度强化学习
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
对 Proximal policy optimization 的探索行为进行了深入分析,提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的 PPO 算法有更好的性能表现。
Jan, 2019
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
该研究提出了一种基于低秩矩阵的模型作为 Trust Region Policy Optimization(TRPO)算法参数的有效替代方法,将随机策略的参数整合成一个矩阵并应用矩阵补全技术,从而降低计算和样本复杂度,并保持相似的综合奖励。
May, 2024
本文提出了一种名为 TRPO 的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking,并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。
Feb, 2015
本文提出了一种基于 Wasserstein 距离的 Policy Optimization 算法,称为 Optimal Transport Trust Region Policy Optimization(OT-TRPO),用于连续状态 - 动作空间中的任务,通过提供一维对偶重构来避免无限维度优化问题,实现了对最优策略更新的分析推导,并在各种控制任务中进行了实验验证,证明了与最先进的方法相比,其优化效果更好。
Oct, 2022
本文介绍了一种名为 Truly PPO 的增强 PPO 方法,针对 PPO 在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了 PPO 在样本效率和性能方面的表现。
Mar, 2019
本文考虑在强化学习中使用的一种流行算法 Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了 TRPO 的适应性调节机制实际上是传统信任域方法的 RL 版本,并在规则化 MDP 中,展示了快速收敛速率的结果,这是关于规则化即时成本或奖励时在 RL 中的首个更好的结果。
Sep, 2019
通过引入自适应 PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善 PPO 的性能,并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。
Dec, 2023
通过对两种流行算法(PPO 和 TRPO)的案例研究,我们研究了深度策略梯度算法中算法进展的根源,并调查了 “代码级优化” 的后果:这些优化仅出现在其他实现中或被描述为核心算法的辅助详细信息,它们似乎具有次要影响,但实际上极大地影响了代理行为。我们的结果表明,它们(a)负责 PPO 在累积奖励方面比 TRPO 获得的大部分收益,并且(b)从根本上改变了 RL 方法的功能。
May, 2020