ROSARL: 仅基于奖励的安全强化学习

May, 2023

ROSARL: 仅基于奖励的安全强化学习

ROSARL: Reward-Only Safe Reinforcement Learning

Geraud Nangue Tasse, Tamlin Love, Mark Nemecek, Steven James, Benjamin Rosman

TL;DR在强化学习中，设计能够在一个环境中安全地解决任务的代理人是一个重要的问题。本文提出了一个实用的无模型算法，它可以帮助代理人学习 Minmax 惩罚，而且在学习任务策略的同时使其学习安全策略。这个算法可以在高维连续控制环境中产生学习安全策略的代理人。

Abstract

An important problem in reinforcement learning is designing agents that learn to solve tasks safely in an environment. A common solution is for a human expert to define either a penalty in the reward function or a cost to be minimised when reaching unsafe states. However, this is non-t

reinforcement learning safe learning minmax penalty controllability diameter

发现论文，激发创造

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

通过验证任务级别属性提供安全的深度强化学习

本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态，从而更好地实现安全深度强化学习的方法，并在机器人地图导航任务中进行了实验研究，结果表明相较于进行 Safe DRL 的基线策略，使用违规指标的策略在性能上有了更好的表现，且能够大幅减少访问不安全状态的数量。

Feb, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

具备死亡避免和恢复功能的安全强化学习

本文提出了一种较少对 RL 探索限制的安全 RL 框架方法，通过利用预训练的安全批判和安全恢复策略来构建一个划定安全状态的边界，并采用行为校正机制确保代理只采取安全动作，该方法在连续控制任务中表现出更好的任务性能和更少的安全违规。

Jun, 2023

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

通过想象近未来来实现安全强化学习

本研究关注应用于现实世界问题中的强化学习算法，提出了一种基于模型的算法可以规避不安全状态并降低安全违规，在连续控制任务中取得相当的回报.

Feb, 2022

限制下的强化学习中的反馈安全性

在安全关键的强化学习环境中，通过引入额外的成本函数来确保智能体安全行为的方法优于修改奖励函数的繁琐任务。然而，设计或评估这样的成本函数可能会非常昂贵。为了应对这个问题，我们提出一种可以在复杂环境中扩展并得到超越状态级反馈的方法，从而减轻评估者的负担。我们引入了一种替代目标，通过将问题转化为带有噪声标记的状态级监督分类任务，从而解决了根据轨迹级反馈为各个状态分配信用的挑战。此外，由于无法对智能体生成的每个轨迹收集反馈，我们提出了一种基于新颖性的采样方法，只有当智能体遇到 “新颖” 的轨迹时才会选择性地引入评估者。我们通过在多个基准安全训练场和现实自动驾驶场景中进行实验证明了我们方法的效率。

Jun, 2024

学习带有专业指导的安全策略

提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架，该框架依赖于来自专家策略的演示，并提供了一个理论框架，以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题：一种是基于精确椭球方法，另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为，训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。

May, 2018

风险敏感强化学习应用于约束条件控制

本文研究带错误状态的马尔可夫决策过程，并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务，实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。

Sep, 2011

基于像素观测的逐州安全强化学习

本文提出了一种新的像素观测安全强化学习算法，通过引入潜在障碍函数学习机制，高效地编码未知危险区域的状态安全约束，并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架，从而在提高安全性和总预期收益方面取得显著的结果。在安全 - gym 基准套件上的实验评估表明，我们提出的方法明显减少了训练过程中的安全违规，并在安全收敛速度上比现有方法更快，同时在奖励回报方面取得了竞争性的结果。

Nov, 2023