安全强化学习中平衡奖励与安全性优化:梯度操控视角
利用多目标优化(MOO)的统一框架来解决复杂的多约束(MC)安全强化学习(safe RL)问题,通过操纵约束条件的梯度,引入梯度塑形(GradS)方法来改善训练效率,实验证明该方法在各种具有挑战性的 MC 安全 RL 任务中提高了探索性和学习策略的效果,同时对约束数量的扩展性表现良好。
Dec, 2023
在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优化多个强化学习目标,并克服不同任务之间冲突梯度,因为简单的加权平均梯度方向可能不利于特定任务的性能,原因在于不同任务目标的梯度不对齐。当出现硬约束违规时,我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上,我们提出的方法在实证上也优于先前最先进的方法。
May, 2024
这项研究将强化学习与轨迹优化相结合,以管理最大化奖励与遵守安全约束之间的权衡,并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能,通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。
Oct, 2023
基于多目标策略优化框架的新型无模型安全强化学习算法引入,通过环境奖励函数和安全评论家对策略进行优化,以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件,并引入了一个攻击参数,允许对所述权衡进行微调。实证结果表明,与六种不同最新颖的 Safe RL 方法相比,提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数,并获得更高或竞争性的策略回报,在安全关键应用方面表现出明显的优越性。
Feb, 2024
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
通过样本操作提高安全强化学习的效率,动态调整采样过程以最大程度地最小化成本和最大化奖励之间的平衡,ESPO 理论上保证了收敛性、优化稳定性和改善样本复杂性界限。在 Safety-MuJoCo 和 Omnisafe 基准测试中,ESPO 在奖励最大化和约束满足方面明显优于现有基线方法,同时显著提高了样本效率,与基线方法相比,所需样本减少了 25-29%,训练时间减少了 21-38%。
May, 2024
安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法,通过在受控环境中训练引导智能体以安全探索,最终实现有效的安全传输学习,帮助学生机器人更快地解决目标任务。
Jul, 2023
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022
本文提出了两种新的安全强化学习方法,即 SafeFallback 和 GiveSafe,其安全约束公式与 RL 公式分离,可提供硬约束满足保证,且无需解决数学问题,从而降低计算能力要求,并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略,同时提供硬约束保证,并在模拟多能源系统案例研究中验证了方法的有效性。
Jul, 2022