通过验证任务级别属性提供安全的深度强化学习

Feb, 2023

通过验证任务级别属性提供安全的深度强化学习

Safe Deep Reinforcement Learning by Verifying Task-Level Properties

Enrico Marchesini, Luca Marzari, Alessandro Farinelli, Christopher Amato

TL;DR本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态，从而更好地实现安全深度强化学习的方法，并在机器人地图导航任务中进行了实验研究，结果表明相较于进行 Safe DRL 的基线策略，使用违规指标的策略在性能上有了更好的表现，且能够大幅减少访问不安全状态的数量。

Abstract

Cost functions are commonly employed in safe deep reinforcement learning (DRL). However, the cost is typically encoded as an indicator function due to the difficulty of quantifying the risk of policy decisions in the state space. Such an encoding requires the agent to visit numerous un

safe deep reinforcement learning cost function violation metric task-level properties robotic mapless navigation

发现论文，激发创造

限制下的强化学习中的反馈安全性

在安全关键的强化学习环境中，通过引入额外的成本函数来确保智能体安全行为的方法优于修改奖励函数的繁琐任务。然而，设计或评估这样的成本函数可能会非常昂贵。为了应对这个问题，我们提出一种可以在复杂环境中扩展并得到超越状态级反馈的方法，从而减轻评估者的负担。我们引入了一种替代目标，通过将问题转化为带有噪声标记的状态级监督分类任务，从而解决了根据轨迹级反馈为各个状态分配信用的挑战。此外，由于无法对智能体生成的每个轨迹收集反馈，我们提出了一种基于新颖性的采样方法，只有当智能体遇到 “新颖” 的轨迹时才会选择性地引入评估者。我们通过在多个基准安全训练场和现实自动驾驶场景中进行实验证明了我们方法的效率。

Jun, 2024

ROSARL: 仅基于奖励的安全强化学习

在强化学习中，设计能够在一个环境中安全地解决任务的代理人是一个重要的问题。本文提出了一个实用的无模型算法，它可以帮助代理人学习 Minmax 惩罚，而且在学习任务策略的同时使其学习安全策略。这个算法可以在高维连续控制环境中产生学习安全策略的代理人。

May, 2023

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

AutoCost：进化内在代价的零违规强化学习

本文提出了 AutoCost 框架，并在 Safety Gym 上进行了验证，结果表明其在 constrained RL 中实现了零违规性能，同时与基线有可比性的表现。

Jan, 2023

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

无地图导航中的安全深度强化学习在线安全属性收集和优化

在实现深度强化学习 (DRL) 的真实场景中，安全至关重要。本文提出了一种名为在线属性的收集和改进 (CROP) 框架，以在训练阶段设计属性，用于识别不安全的相互作用并将其转化为安全属性，以在易受攻击的安全关键任务中使用。最终的评估结果显示与以往安全 DRL 方法相比，使用 CROP 计算违规指标更能提高返回值和降低违规次数。

Feb, 2023

基于像素观测的逐州安全强化学习

本文提出了一种新的像素观测安全强化学习算法，通过引入潜在障碍函数学习机制，高效地编码未知危险区域的状态安全约束，并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架，从而在提高安全性和总预期收益方面取得显著的结果。在安全 - gym 基准套件上的实验评估表明，我们提出的方法明显减少了训练过程中的安全违规，并在安全收敛速度上比现有方法更快，同时在奖励回报方面取得了竞争性的结果。

Nov, 2023

线性函数逼近的安全强化学习

本文提出在强化学习过程中学习安全性机制的方法，并针对线性函数状态下的马尔科夫决策过程提出了 SLUCB-QVI 和 RSLUCB-QVI 算法，能够在没有安全问题的情况下实现几乎与现有不安全算法相匹配的一定遗憾水平

Jun, 2021

安全强化学习的概率反例指导

本文提出了一个针对安全探索的方法，通过与安全需求反例指导训练，将连续和离散状态空间系统抽象成紧凑的抽象模型，并利用概率反例生成构造出最小化安全需求违规的模拟子模型，从而使代理人能够有效地训练其策略，以在随后的在线探索过程中尽量减少安全违规风险。

Jul, 2023

System III: 使用领域知识进行学习以满足安全限制

提出了一种新颖的框架，在强化学习代理中引入领域知识以促进安全探索和提高样本效率，该方法在 OpenAI 的 Gym 和 Safety-Gym 环境中的任务中均表现出了更安全的探索和更高的样本效率。

Apr, 2023