学习恢复区的安全强化学习（Recovery RL）

Oct, 2020

学习恢复区的安全强化学习（Recovery RL）

Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones

Brijen Thananjeyan, Ashwin Balakrishna, Suraj Nair, Michael Luo, Krishnan Srinivasan...

TL;DR本文提出了一种名为 Recovery RL 的算法，它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性，并在六个仿真领域和一个物理机器人上进行了试验，证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。

Abstract

Safety remains a central obstacle preventing widespread use of RL in the real world: learning new tasks in uncertain environments requires extensive exploration, but safety requires limiting exploration. We propo

recovery rl safe rl methods constraint satisfaction exploration offline data

发现论文，激发创造

安全强化学习中的恢复学习

通过学习算法构建安全控制器以实现安全强化学习，提出了三阶段的架构 TU-Recovery Architecture，并通过辅助奖励来缓解对抗现象，以提高安全控制器在任务训练中的回报率和约束违规率。

Sep, 2023

具备死亡避免和恢复功能的安全强化学习

本文提出了一种较少对 RL 探索限制的安全 RL 框架方法，通过利用预训练的安全批判和安全恢复策略来构建一个划定安全状态的边界，并采用行为校正机制确保代理只采取安全动作，该方法在连续控制任务中表现出更好的任务性能和更少的安全违规。

Jun, 2023

离线目标驱动强化学习在安全关键任务中的应用与恢复策略

离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题，并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证，结果表明 RbSL 方法在很大程度上优于现有的最先进方法。

Mar, 2024

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

评估基于模型无关的强化学习在安全关键任务中的应用

本研究提出了一种新的安全强化学习技术，即 Unrolling Safety Layer 方法，它通过结合安全优化和安全投影的方式来显式地强制实施硬性约束条件，该技术在学习零成本回报政策上具有良好的鲁棒性和适用性，并且实现了与算法评估的有机结合。

Dec, 2022

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Oct, 2023

四足行走安全强化学习

本文提出了一种安全的强化学习框架，用于设计控制策略，以确保腿部运动的安全，同时利用无模型的强化学习进行学习任务。在此框架基础上，本文进行了四项步态运动实验，并实现了显著的提升，包括节能、稳定性和动作变化。

Mar, 2022