信任域策略优化
本文提出了一个名为 TREFree 的算法,该算法采用广义代理目标来替代策略上的可信区间约束并在实践中通过保守优化广义目标来有效实施,从而获得更好的策略绩效和样本效率。
Feb, 2023
本文考虑在强化学习中使用的一种流行算法 Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了 TRPO 的适应性调节机制实际上是传统信任域方法的 RL 版本,并在规则化 MDP 中,展示了快速收敛速率的结果,这是关于规则化即时成本或奖励时在 RL 中的首个更好的结果。
Sep, 2019
该研究提出了一种基于低秩矩阵的模型作为 Trust Region Policy Optimization(TRPO)算法参数的有效替代方法,将随机策略的参数整合成一个矩阵并应用矩阵补全技术,从而降低计算和样本复杂度,并保持相似的综合奖励。
May, 2024
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
对 Proximal policy optimization 的探索行为进行了深入分析,提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的 PPO 算法有更好的性能表现。
Jan, 2019
通过引入自适应 PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善 PPO 的性能,并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。
Dec, 2023
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
该研究将信任区域策略优化(TRPO)扩展到多智能体强化学习(MARL)问题,提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO,该算法能够基于本地观察和私人奖励优化分布式策略,实现完全的去中心化和保护隐私。实验表明,MATRPO 在复杂的 MARL 任务中表现出了强韧的性能。
Oct, 2020
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
本文介绍了针对到多智能体强化学习 (MARL) 的信任区域方法,并展示了 Heterogeneous-Agent Trust Region Policy Optimisation 和 Heterogeneous-Agent Proximal Policy Optimisation 算法的成功应用。
Sep, 2021