Safe DreamerV3：基于世界模型的安全强化学习

Jul, 2023

Safe DreamerV3：基于世界模型的安全强化学习

Safe DreamerV3: Safe Reinforcement Learning with World Models

Weidong Huang, Jiaming Ji, Borong Zhang, Chunhe Xia, Yaodong Yang

TL;DR本文介绍了一种将拉格朗日方法和规划方法融合到世界模型中的算法 Safe DreamerV3，这是首个在 Safety-Gymnasium benchmark 中能够在低维和仅依靠视觉的任务中实现近乎零成本的 SafeRL 算法。

Abstract

The widespread application of reinforcement learning (RL) in real-world situations is yet to come to fruition, largely as a result of its failure to satisfy the essential safety demands of such systems. Existing

reinforcement learning saferl safety demands world model lagrangian-based method

发现论文，激发创造

评估基于模型无关的强化学习在安全关键任务中的应用

本研究提出了一种新的安全强化学习技术，即 Unrolling Safety Layer 方法，它通过结合安全优化和安全投影的方式来显式地强制实施硬性约束条件，该技术在学习零成本回报政策上具有良好的鲁棒性和适用性，并且实现了与算法评估的有机结合。

Dec, 2022

安全体育场：统一的安全强化学习基准

这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库，其中包含了 16 种最先进的安全强化学习算法，旨在促进安全性能的评估和比较，并推动强化学习在更安全、更可靠和负责任的实际应用中的发展。

Oct, 2023

通过想象近未来来实现安全强化学习

本研究关注应用于现实世界问题中的强化学习算法，提出了一种基于模型的算法可以规避不安全状态并降低安全违规，在连续控制任务中取得相当的回报.

Feb, 2022

OmniSafe：用于加速安全强化学习研究的基础设施

本篇论文给出一个基础性安全强化学习框架，拥有不同领域跨越的一系列算法和重要的安全元素，以便更有效地研究 AI 安全和 SafeRL 算法实现。

May, 2023

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

安全强化学习综述：方法、理论与应用

该论文从方法、理论和应用的角度回顾了安全强化学习的进展，提出了 “2H3W” 问题并分析了解决这些问题的理论和算法进展；还讨论了安全强化学习方法的样本复杂度，并介绍了相关应用和基准，最后开启了安全强化学习中的挑战问题的讨论并发布了一个包含主要安全强化学习算法实现和教程的基准套件。

May, 2022

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

CarDreamer：基于世界模型的自主驾驶开源学习平台

为了在错综复杂的实际情景中安全驾驶，自主车辆需要能够适应各种道路条件并预测未来事件。为了弥补这个空白，我们介绍了 CarDreamer，这是第一个专门用于开发基于世界模型的自主驾驶算法的开源学习平台。它包括三个关键组成部分：1）世界模型骨干：CarDreamer 集成了一些最先进的世界模型，简化了 RL 算法的复现过程。2）内置任务：CarDreamer 提供一套全面可配置的驾驶任务，与 Gym 接口兼容，并配备了经验证的优化奖励函数。3）任务开发套件：该套件简化了驾驶任务的创建过程，可以轻松定义交通流量和车辆路线，并自动收集多模态观测数据。可视化服务器允许用户通过浏览器实时追踪代理驾驶视频和性能指标。我们还使用内置任务进行广泛的实验证明了 WM 在自主驾驶中的性能和潜力，并通过 CarDreamer 的丰富性和灵活性系统地研究了观测模态、可观测性和车辆意图共享对 AV 安全性和效率的影响。所有代码和文档都可以在该 URL 中访问。

May, 2024

DreamingV2: 基于离散世界模型的强化学习方法，无需重构

提出了一种新的强化学习方法 DreamingV2，它是 DreamerV2 和 Dreaming 的协作扩展，与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比，DreamingV2 在 3D 机器人臂任务上取得了最佳成绩，适用于描述不连续环境的离散表示以及管理复杂视觉观察的无重构方式，是一种可靠的机器人学习解决方案。

Mar, 2022

学习恢复区的安全强化学习（Recovery RL）

本文提出了一种名为 Recovery RL 的算法，它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性，并在六个仿真领域和一个物理机器人上进行了试验，证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。

Oct, 2020