安全关键环境下的强化学习谨慎自适应

ICMLAug, 2020

安全关键环境下的强化学习谨慎自适应

Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings

Jesse Zhang, Brian Cheung, Chelsea Finn, Sergey Levine, Dinesh Jayaraman

TL;DR提出一种安全关键的适应性强化学习任务设置和解决方案 CARL，通过以多样化环境中的先前经验来评估风险，实现对新领域的谨慎探索并避免灾难状态，为城市驾驶等安全关键环境下的强化学习提供可行性。

Abstract

reinforcement learning (RL) in real-world safety-critical target settings like urban driving is hazardous, imperiling the RL agent, other agents, and the environment. To overcome this difficulty, we propose a "safety-critical adaptation" task setting: an agent first trains in non-safet

reinforcement learning safety-critical adaptation carl risk-averse adaptation probabilistic model

发现论文，激发创造

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

安全关键控制的自适应聚合

本文提出了一个自适应聚合框架，用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识，并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明，与几种基线相比，我们的算法可以实现更少的安全违规，同时显示更好的数据效率。

Feb, 2023

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

勘探的保守安全批评家

本文介绍了一种基于保守安全估计的强化学习安全探索方法，通过批判学习环境状态的保守安全估计，从理论上上界限制了灾难性失败概率，实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能，同步显著降低了灾难性失败率。

Oct, 2020

安全关键的强化学习中基于少量环境的泛化

本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响，通过模型平均和使用阻塞分类器等简单方法，可显著降低在网格世界中的灾难情况，但在 CoinRun 环境中会存在一定失败率，然而可以通过系集的不确定性信息来预测是否需要人类干预。

Jul, 2019

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

RACER：基于认知风险敏感的强化学习在少发生事故的情况下实现快速驾驶

通过将风险敏感控制与自适应动作空间课程相结合，我们提出了一种强化学习框架，能够既学习高性能的策略，又避免过多的失败，在真实世界的越野驾驶任务中具有较少的安全违例，并在具有相似挑战的驾驶和非驾驶仿真环境中导致更高性能的策略。

May, 2024

风险厌恶稳健对抗强化学习

本文提出了一种风险规避的强化学习算法，通过引入风险规避主角和风险趋避对手的方式，使用价值函数方差来建模风险，避免极端不良事件的发生，该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。

Mar, 2019

强化学习自适应控制正则化在关键系统安全控制中的应用

强化学习是控制动态系统的强大方法，但其学习机制可能导致不可预测的行为，从而损害关键系统的安全性。本文中，我们提出了一种具有自适应控制正则化的强化学习方法（RL-ACR），通过将强化学习策略与控制正则化器结合起来，确保强化学习的安全性，并对预测的系统行为应用安全约束。我们使用可学习的 “聚焦” 权重来实现适应性，该权重通过训练来最大化策略组合的累积奖励。随着离策略学习中强化学习策略的改进，聚焦权重改进了初始亚最优策略，逐渐更多地依赖强化学习策略。我们在关键医疗控制应用中展示了 RL-ACR 的有效性，并进一步研究了其在四个经典控制环境中的性能。

Apr, 2024

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024