使用贝叶斯世界模型和对数障碍优化的安全探索
本文提出了一种基于安全的强化学习探索方法,通过限制注意力在一组安全的最小子集中,实现安全探索策略的优化,该方法在以前提出的大多数探索方法中可兼容,并在火星地形探索问题中得到了验证。
May, 2012
本文提出针对有安全限制的探索问题的新型算法,使用高斯过程先验来表达未知安全限制,具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。
Jun, 2016
研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题,使用一种约束的Markov决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
本文介绍了一种基于保守安全估计的强化学习安全探索方法,通过批判学习环境状态的保守安全估计,从理论上上界限制了灾难性失败概率,实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能,同步显著降低了灾难性失败率。
Oct, 2020
在强化学习应用于现实系统时,确保安全是一个关键的挑战。因此,我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法,用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件,将安全验证降低到标准强化学习任务。利用幻想输入的概念,我们将这种方法扩展到确定对未知系统具有高概率安全的“备份”策略。最后,在朝向备份策略的滚动过程中,每个时间步骤最小调整名义策略,以保证安全恢复。我们提供了正式的安全保证,并在实验中证明了我们方法的有效性。
Jul, 2022
本文提出了一个针对安全探索的方法,通过与安全需求反例指导训练,将连续和离散状态空间系统抽象成紧凑的抽象模型,并利用概率反例生成构造出最小化安全需求违规的模拟子模型,从而使代理人能够有效地训练其策略,以在随后的在线探索过程中尽量减少安全违规风险。
Jul, 2023
在本篇论文中,我们提出了一个名为广义安全探索(GSE)的问题,并使用元算法MASE解决了这个问题,该算法结合了无限制的强化学习算法和不确定性量化器,以确保当前回合的安全性,同时在实际安全违规之前对不安全的探索进行适当的惩罚,以防止它们在未来回合中发生。MASE算法的优势在于我们可以在合理假设下优化策略,同时以很高的概率保证不违反任何安全约束。最后,我们演示了我们提出的算法在方格世界和Safety Gym基准测试上取得了比现有算法更好的性能,且即使在训练过程中也没有违反任何安全约束。
Oct, 2023
这篇论文研究了在强化学习过程中如何保证训练的安全性,通过提出一种新的架构处理效率和安全性之间的权衡,并利用贝叶斯推理和马尔可夫决策过程来近似风险,并通过实验结果展示了整体架构的性能。
Dec, 2023
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。
Mar, 2024