基于投影的约束策略优化
提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法,可保证在每次迭代中实现约束满足,能够应用于高维控制问题,例如,在机器人运动中,智能体必须满足安全性约束条件。
May, 2017
提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法,使用自然策略梯度方法,并以全局优化策略为目标,最终达到 1 / 根号 T 的收敛速率和错误边界。
Nov, 2020
本文提出了一种名为 CPPO 的新型一阶可行方法,将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布,并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略,解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证,该方法的有效性至少与其他基线方法一样。
May, 2023
本论文提出惩罚近端策略优化 (P3O) 算法,通过一个等效的无约束问题的单次极小化来解决繁琐的受约束策略迭代,同时可以扩展至多约束和多智能体场景,实验表明该算法在一组有约束的机车任务上具有先进性能。
May, 2022
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块,在训练效率和零 - shot 适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。
Oct, 2023
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO),用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作,RPO 算法采用了 GRG 的方法生成基本动作,并通过等式约束求解得到非基本动作。另外,还引入了基于减少梯度的动作投影过程,并应用改进的拉格朗日松弛技术来确保不等式约束得到满足。此外,为了解决目前缺乏复杂硬约束环境的问题,我们开发了三个新的基准测试任务:两个机器人操作任务和一个智能电网运行控制任务。通过这些基准测试,RPO 算法在累积奖励和约束违规方面显示出比之前的约束强化学习算法更好的性能。我们相信 RPO 算法及其新的基准测试将为将 RL 应用于具有复杂约束的现实问题打开新的机遇。
Oct, 2023
该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略,利用本地约束策略优化(LCPO)来优化当前经验,基于旧经验进行策略衔接,有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证,结果表明,它在在线设置下优于最先进的策略和离线策略学习方法,并且达到了预先训练整个输入跟踪的离线代理的水平。
Feb, 2023
本文提出了一种改进版的 COPOE 算法,克服 Policy optimization 方法在采样复杂度方面的问题,同时保留它对模型不当规格化的鲁棒性。
Mar, 2021