各州受限制的政策优化
本研究介绍了一种新的安全强化学习算法(Safety Critic Policy Optimization,SCPO),通过引入安全评判机制,该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡,并在实证验证中证明了其有效性。
Nov, 2023
本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡,同时总结了当前方法的局限性并探讨了未来的研究方向。
Feb, 2023
提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法,可保证在每次迭代中实现约束满足,能够应用于高维控制问题,例如,在机器人运动中,智能体必须满足安全性约束条件。
May, 2017
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块,在训练效率和零 - shot 适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。
Oct, 2023
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分(WAPID)来稳定更新拉格朗日乘子,在实验中表现出更好的风险控制能力。
Jan, 2022
本研究提出了一种名为 SCPO 的新型无模型的策略算法,通过近似减少状态空间内的扰动来解决源环境和目标环境之间差异性的问题,以使深度强化学习算法在真实环境中更加具有鲁棒性。
Dec, 2021
本研究利用 Lyapunov 方法,构建了基于约束的马尔可夫决策过程(CMDP)模型,并使用深度确定性策略梯度(DDPG)或近端策略优化(PPO)等标准策略梯度方法进行训练,通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上,以实现策略的近似约束满足,并且实现了较少保守的策略更新,针对数个模拟(MuJoCo)任务以及实际室内机器人导航问题的评估表明了我们算法的有效性,同时具有较高的数据利用效率。
Jan, 2019
本论文提出针对平均准则的受约束 MDPs 的一种新的(可能是第一种)策略优化算法 —— 平均约束策略优化(ACPO)算法,通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限,提供其性能的理论保证,并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作,展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。
Feb, 2023