通过鲁棒不变集的分解学习预测性安全过滤器
在强化学习应用于现实系统时,确保安全是一个关键的挑战。因此,我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法,用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件,将安全验证降低到标准强化学习任务。利用幻想输入的概念,我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后,在朝向备份策略的滚动过程中,每个时间步骤最小调整名义策略,以保证安全恢复。我们提供了正式的安全保证,并在实验中证明了我们方法的有效性。
Jul, 2022
我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法,填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式,在学习过程和实际应用中满足硬约束条件,同时享有经典的收敛保证,我们在仿真环境中验证了我们方法的有效性,包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制,并证明其胜过现有的基准模型。
Mar, 2024
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的 RL 算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
Oct, 2022
本文提出了一种将强化学习与模型预测控制相结合的方法,以充分利用两者的优势,并获得既具有最优性又安全的控制器。在模拟中,我们通过数值实验证明了该方法的有效性。
Jun, 2019
通过利用神经网络、凸优化和鲁棒线性模型预测控制,本研究提出了一种新的安全过滤器,以确保神经网络系统在受到建模误差的加性干扰时能保持安全,并通过在非线性摆动系统上的数值实验证明了其有效性。
Aug, 2023
本文探讨了在部分可观察环境下的安全强化学习问题,旨在实现安全可达性目标。通过提出一种基于随机模型的方法,在面对未知系统动态和部分观测环境时,几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下,为强化学习算法建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。
Dec, 2023
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022