针对随机策略的无信赖区域策略优化
本文提出了一种名为TRPO的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的Swimming、Hopping以及Walking,并使用屏幕图像玩Atari游戏等众多方面的优越表现。
Feb, 2015
提出一种基于离线数据的信任区域方法Trust-PCL,能够在强化学习中稳定策略优化算法,使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性,提高了样本效率和解决方案质量。
Jul, 2017
对Proximal policy optimization的探索行为进行了深入分析,提出了一种名为Trust Region-Guided PPO的新的策略优化方法,通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题,并证明其相较于原始的PPO算法有更好的性能表现。
Jan, 2019
本文考虑在强化学习中使用的一种流行算法Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了TRPO的适应性调节机制实际上是传统信任域方法的RL版本,并在规则化MDP中,展示了快速收敛速率的结果,这是关于规则化即时成本或奖励时在RL中的首个更好的结果。
Sep, 2019
该研究将信任区域策略优化(TRPO)扩展到多智能体强化学习(MARL)问题,提出了一种基于分布式共识优化问题的去中心化MARL算法MATRPO,该算法能够基于本地观察和私人奖励优化分布式策略,实现完全的去中心化和保护隐私。实验表明,MATRPO在复杂的MARL任务中表现出了强韧的性能。
Oct, 2020
本文探讨基于KL散度的信任域方法在强化学习中的应用,进而提出基于Wasserstein和Sinkhorn两种新的信任域方法用于策略优化,并在多个任务中进行了实验验证。
Jun, 2023
应用KL惩罚本身几乎足以强制执行信任区域,在实践中通过少于5%的额外梯度步骤引入"修复"阶段足以保证在每个策略更新时执行信任区域,产生与其他信任区域方法相竞争的结果。
Dec, 2023
通过引入自适应PPO-CLIP(Adaptive-PPO)方法,动态探索和利用带卡尔曼滤波的剪辑边界,在线训练过程中改善PPO的性能,并通过大量实验初步证明我们的自适应PPO对比PPO-CLIP表现出的样本效率和性能。
Dec, 2023
本研究解决了强化学习中存在的不安全行为问题,提出了一种新的方法——受限信任区域策略优化(C-TRPO),通过根据安全约束调整策略空间的几何结构,确保训练过程中的约束满足。实验结果表明,C-TRPO在显著减少约束违规的同时,与最先进的受限马尔可夫决策过程算法相比,在奖励最大化方面具备竞争力。
Nov, 2024