本文提出了一种名为 Recovery RL 的算法,它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性,并在六个仿真领域和一个物理机器人上进行了试验,证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。
Oct, 2020
该论文提出了一种鲁棒安全强化学习框架,解决了在真实控制任务中应用强化学习时外部干扰的安全性问题,该框架通过建立鲁棒不变集合来保证安全,并采用约束强化学习算法进行策略优化。
Oct, 2023
本文提出了一种较少对 RL 探索限制的安全 RL 框架方法,通过利用预训练的安全批判和安全恢复策略来构建一个划定安全状态的边界,并采用行为校正机制确保代理只采取安全动作,该方法在连续控制任务中表现出更好的任务性能和更少的安全违规。
Jun, 2023
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
为了将 RL 算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度 RL 技术和以前的安全 RL 方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
本文提出了一个自适应聚合框架,用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识,并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明,与几种基线相比,我们的算法可以实现更少的安全违规,同时显示更好的数据效率。
Feb, 2023
本文提出了一种安全的强化学习框架,用于设计控制策略,以确保腿部运动的安全,同时利用无模型的强化学习进行学习任务。在此框架基础上,本文进行了四项步态运动实验,并实现了显著的提升,包括节能、稳定性和动作变化。
Mar, 2022
为了确保机器人等自主车辆的广泛部署,本文提出了一种新的闭环范式用于综合安全控制策略,明确考虑系统在可能的未来情景下的演变不确定性,通过物理动力学和机器人的学习算法共同推理,利用对抗深度强化学习进行放大,展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。
Sep, 2023
本文提出一种受人类教学启发的替代方法,即代理在自动指导监督下学习,其中引入了监视器来防止其在学习过程中违反约束条件。
Jun, 2020
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022