CRPO:一种具有收敛保证的安全强化学习新方法
本文提出了一种名为 CPPO 的新型一阶可行方法,将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布,并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略,解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证,该方法的有效性至少与其他基线方法一样。
May, 2023
提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法,可保证在每次迭代中实现约束满足,能够应用于高维控制问题,例如,在机器人运动中,智能体必须满足安全性约束条件。
May, 2017
近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO),用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作,RPO 算法采用了 GRG 的方法生成基本动作,并通过等式约束求解得到非基本动作。另外,还引入了基于减少梯度的动作投影过程,并应用改进的拉格朗日松弛技术来确保不等式约束得到满足。此外,为了解决目前缺乏复杂硬约束环境的问题,我们开发了三个新的基准测试任务:两个机器人操作任务和一个智能电网运行控制任务。通过这些基准测试,RPO 算法在累积奖励和约束违规方面显示出比之前的约束强化学习算法更好的性能。我们相信 RPO 算法及其新的基准测试将为将 RL 应用于具有复杂约束的现实问题打开新的机遇。
Oct, 2023
本研究提出了一种新的算法,投影约束策略优化(PCPO),用于学习控制策略,以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束,结果表明与现有的方法相比,PCPO 在多个控制任务中的表现优异,约束违反率平均低至 3.5 倍左右,奖励水平约高 15% 左右。
Oct, 2020
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块,在训练效率和零 - shot 适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。
Oct, 2023
State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。
Jun, 2023
本文探讨了在概率受限制的强化学习中学习安全策略的问题,并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验,验证了这些方法的有效性和优越性。
Jun, 2023
我们提出了一种基于谱风险度量约束的增强学习算法,该算法利用了谱风险度量的对偶性,通过双层优化结构来实现收敛性和最优性,从而在表格设置中保证了最佳性能,并在连续控制任务中展现出了最好的性能。
May, 2024