通过想象近未来来实现安全强化学习
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
本文提出了一种较少对 RL 探索限制的安全 RL 框架方法,通过利用预训练的安全批判和安全恢复策略来构建一个划定安全状态的边界,并采用行为校正机制确保代理只采取安全动作,该方法在连续控制任务中表现出更好的任务性能和更少的安全违规。
Jun, 2023
安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法,通过在受控环境中训练引导智能体以安全探索,最终实现有效的安全传输学习,帮助学生机器人更快地解决目标任务。
Jul, 2023
本文提出了一个针对安全探索的方法,通过与安全需求反例指导训练,将连续和离散状态空间系统抽象成紧凑的抽象模型,并利用概率反例生成构造出最小化安全需求违规的模拟子模型,从而使代理人能够有效地训练其策略,以在随后的在线探索过程中尽量减少安全违规风险。
Jul, 2023
本篇论文针对强化学习中的安全探索这一问题,提出 PI-SRL 算法在解决复杂任务,包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。
Feb, 2014
通过对学习策略与默认的安全策略进行比较,我们提出了一种对反事实伤害进行约束的方法,在考虑不确定性和复杂环境表示的基础上实现了学习更安全策略的目的。
May, 2024
在强化学习应用于现实系统时,确保安全是一个关键的挑战。因此,我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法,用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件,将安全验证降低到标准强化学习任务。利用幻想输入的概念,我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后,在朝向备份策略的滚动过程中,每个时间步骤最小调整名义策略,以保证安全恢复。我们提供了正式的安全保证,并在实验中证明了我们方法的有效性。
Jul, 2022
为了将 RL 算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度 RL 技术和以前的安全 RL 方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
Oct, 2020