受限马尔可夫决策过程中安全的强化学习
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。
Mar, 2024
这项研究将强化学习与轨迹优化相结合,以管理最大化奖励与遵守安全约束之间的权衡,并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能,通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。
Oct, 2023
本文提出针对有安全限制的探索问题的新型算法,使用高斯过程先验来表达未知安全限制,具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。
Jun, 2016
研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题,使用一种约束的 Markov 决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
本研究介绍了一种新的安全强化学习算法(Safety Critic Policy Optimization,SCPO),通过引入安全评判机制,该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡,并在实证验证中证明了其有效性。
Nov, 2023
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
为了提高深度强化学习中系统的安全性,在这项工作中引入了一个名为 GenSafe 的通用安全增强器,通过模型降阶技术构建了一个低维度的 Proxy 来改善代理行为,从而提供了跨多种 SRL 方法的广泛兼容性,它不仅能够改善安全性能,特别是在早期学习阶段,还能够维持任务性能在一个令人满意的水平。
Jun, 2024
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的 RL 算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
Oct, 2022