本文提出了一种有效的方法,将蒙特卡洛方法和物理启发式神经网络相结合,利用偏微分方程来评估长期风险概率及其梯度,从而提高样本效率并适应更改的系统参数。
May, 2023
本文探讨了在部分可观察环境下的安全强化学习问题,旨在实现安全可达性目标。通过提出一种基于随机模型的方法,在面对未知系统动态和部分观测环境时,几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下,为强化学习算法建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。
Dec, 2023
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
该论文介绍了一种设计用于随机系统的安全证书的方法,重点是通过快速实时控制来确保长期安全。通过引入一种名为 “概率不变性” 的新颖技术,论文解决了长期安全与计算权衡之间的挑战,并将该技术整合到安全控制和学习中,实现了在随机环境下的长期安全控制和学习。
Apr, 2024
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学习无模型策略和 Q 函数。此外,我们提出了一种混合规划策略,将学习到的策略、Q 函数和模型结合起来,以提高规划的时间效率。通过实际演示,我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。
Jul, 2024
本文介绍了一种在物理系统(如数据中心冷却单元或机器人)中部署强化学习代理的方法,通过添加一层安全层,能够避免在学习过程中违反约束条件,并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。
Jan, 2018
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
该论文提出了一种鲁棒安全强化学习框架,解决了在真实控制任务中应用强化学习时外部干扰的安全性问题,该框架通过建立鲁棒不变集合来保证安全,并采用约束强化学习算法进行策略优化。
Oct, 2023