SCPO: 带安全评论家策略优化的安全强化学习
State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。
Jun, 2023
本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分(WAPID)来稳定更新拉格朗日乘子,在实验中表现出更好的风险控制能力。
Jan, 2022
该研究提出了一种名为 SNO-MDP 的算法,它可以在未知安全约束条件下探索和优化马尔可夫决策过程,通过扩展安全区域来学习安全约束条件,进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。
Aug, 2020
本文提出了一种 ESB-CPO 算法,通过在早期阶段增加额外的安全预算来平衡探索和约束,以提高过程的效率,证明其在保证安全性的基础上能够显著提高性能。
Feb, 2023
本研究利用 Lyapunov 方法,构建了基于约束的马尔可夫决策过程(CMDP)模型,并使用深度确定性策略梯度(DDPG)或近端策略优化(PPO)等标准策略梯度方法进行训练,通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上,以实现策略的近似约束满足,并且实现了较少保守的策略更新,针对数个模拟(MuJoCo)任务以及实际室内机器人导航问题的评估表明了我们算法的有效性,同时具有较高的数据利用效率。
Jan, 2019
提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法,使用自然策略梯度方法,并以全局优化策略为目标,最终达到 1 / 根号 T 的收敛速率和错误边界。
Nov, 2020
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。
Mar, 2024
本文探讨了在概率受限制的强化学习中学习安全策略的问题,并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验,验证了这些方法的有效性和优越性。
Jun, 2023