本文提出了一种基于学习的模型预测控制方案,其可以提供可证明的高概率安全保证,并利用正态分布先验的规则性假设来构建可证明准确的置信区间,保证轨迹满足安全约束,通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。
Mar, 2018
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险,该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明,不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。
Sep, 2023
使用最优控制提出新的安全保证的探索框架,其中包括对于非线性系统的有限时间样本复杂度边界下的保证的探索,具有任意高概率的可靠性和安全性,在复杂的非线性动态和未知领域的许多实际情景中具备一般性和适用性。
Feb, 2024
在本篇论文中,我们提出了一个名为广义安全探索(GSE)的问题,并使用元算法 MASE 解决了这个问题,该算法结合了无限制的强化学习算法和不确定性量化器,以确保当前回合的安全性,同时在实际安全违规之前对不安全的探索进行适当的惩罚,以防止它们在未来回合中发生。MASE 算法的优势在于我们可以在合理假设下优化策略,同时以很高的概率保证不违反任何安全约束。最后,我们演示了我们提出的算法在方格世界和 Safety Gym 基准测试上取得了比现有算法更好的性能,且即使在训练过程中也没有违反任何安全约束。
Oct, 2023
这篇论文研究了在强化学习过程中如何保证训练的安全性,通过提出一种新的架构处理效率和安全性之间的权衡,并利用贝叶斯推理和马尔可夫决策过程来近似风险,并通过实验结果展示了整体架构的性能。
Dec, 2023
本文介绍了一种基于保守安全估计的强化学习安全探索方法,通过批判学习环境状态的保守安全估计,从理论上上界限制了灾难性失败概率,实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能,同步显著降低了灾难性失败率。
Oct, 2020
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。
Jan, 2023
基于自适应采样的高斯过程后验中极值中位数的可证明安全边界为活动学习提供了有效的安全约束,以便在物理系统中进行设计空间的探索。
本文提出针对有安全限制的探索问题的新型算法,使用高斯过程先验来表达未知安全限制,具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。
Jun, 2016