Saute RL: 使用状态增广实现近乎绝对安全的强化学习

ICMLFeb, 2022

Saute RL: 使用状态增广实现近乎绝对安全的强化学习

Saute RL: Almost Surely Safe Reinforcement Learning Using State Augmentation

Aivar Sootla, Alexander I. Cowen-Rivers, Taher Jafferjee, Ziyan Wang, David Mguni...

TL;DRSaute MDP can remove safety constraints by augmenting state-space and reshaping objective, allowing for policy generalization and better constraint satisfaction in reinforcement learning.

Abstract

Satisfying safety constraints almost surely (or with probability one) can be critical for the deployment of reinforcement learning (RL) in real-life applications. For example, plane landing and take-off should id

reinforcement learning safety constraints saute mdp bellman equation policy generalization

发现论文，激发创造

基于优势干预的安全强化学习

提出了一个新的算法 SAILR，该算法使用基于优势函数的干预机制在训练期间保持代理的安全，并使用为无约束 MDP 设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。

Jun, 2021

安全状态增强对安全探索的影响

在模型无关强化学习中，通过引入安全状态来解决安全成本稀疏和未知的问题，其价值也作为违约距离，初始值反映了可用的安全预算。该方法有助于制定安全预算调度策略，称为 Simmer，可提高两种安全强化学习问题的安全性，提高平均约束下安全强化学习的性能。

Jun, 2022

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Oct, 2023

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

基于状态的安全强化学习：一项调查

本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡，同时总结了当前方法的局限性并探讨了未来的研究方向。

Feb, 2023

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022