带有可行性引导扩散模型的安全离线强化学习

ICLRJan, 2024

带有可行性引导扩散模型的安全离线强化学习

Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model

Yinan Zheng, Jianxiong Li, Dongjie Yu, Yujie Yang, Shengbo Eben Li...

TL;DR通过可行区域定义的安全约束，最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR（FeasIbility-guided Safe Offline RL）是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。

Abstract

safe offline rl is a promising way to bypass risky online interactions towards safe policy learning. Most existing methods only enforce soft constraints, i.e., constraining safety violations in expectation below thresholds predetermined. This can lead to potentially unsafe outcomes, th

safe offline rl safety constraint feasible region reward maximization offline policy learning

发现论文，激发创造

引导式在线蒸馏：通过离线演示提升安全强化学习

安全增强学习旨在找到在满足成本约束的同时实现高回报的策略。本研究提出了一种离线到在线的安全增强学习框架，通过引导在线安全增强学习训练，将离线决策变压器策略提炼为轻量级策略网络，在挑战性的安全关键场景中成功解决决策问题。

Sep, 2023

离线目标驱动强化学习在安全关键任务中的应用与恢复策略

离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题，并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证，结果表明 RbSL 方法在很大程度上优于现有的最先进方法。

Mar, 2024

基于约束惩罚的 Q-learning 算法用于安全离线强化学习

本研究探讨了在仅使用离线数据的情况下学习最大化长期收益的策略，同时满足安全性约束的安全离线强化学习问题，提出了基于约束惩罚的 Q 学习算法来解决该问题，并且在多个基准任务中进行了实验验证，表明该算法在数据效率和性能方面都优于其他基线算法。

Jul, 2021

可行策略迭代

本文研究安全强化学习问题，提出了一种名为可行策略迭代算法的间接安全强化学习方法，该算法通过使用一个称为约束衰减函数的可行性函数表示可行域，实现了保证策略的约束和可行性并达到优化目标。实验表明，可行策略迭代算法在经典控制任务和安全场景中能够取得更好的表现。

Apr, 2023

学习恢复区的安全强化学习（Recovery RL）

本文提出了一种名为 Recovery RL 的算法，它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性，并在六个仿真领域和一个物理机器人上进行了试验，证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。

Oct, 2020

离线安全强化学习的约束决策 Transformer

该论文研究了如何从离线数据集中学习到一个安全政策，提出了一种多目标优化的方法，并通过 “ε- 可减” 向量量化了问题难度，发现在安全性和任务性能之间存在平衡，于是提出了一种 “受限决策 Transformer” 方法并进行了实验，结果表明我们的方法比其他方法在各种任务中都表现出更好更安全和更高的效益。

Feb, 2023

可达性约束强化学习

本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。

May, 2022

安全强化学习的一致性可行性表征学习

在安全强化学习领域，通过结合表示学习和可行性导向目标，我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning（FCSRL）的新框架，以从原始状态中提取与安全相关的信息从而增强策略学习和约束估计。在多种向量状态和基于图像的任务的实证评估中，我们的方法能够学习到更好的安全感知嵌入并取得优越的性能，超过了先前的表示学习基线。

May, 2024

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

FISAR：基于深度神经网络优化的前不变安全强化学习

本文提出了一种基于深度神经网络优化器的约束优化求解方法，将约束作为 Lyapunov 函数并在策略参数更新动态上施加新的线性约束以达到约束满足的效果，并改进了现有方法在优化策略时的瓶颈，其在数值优化和避障导航等场景中体现了出色的性能。

Jun, 2020