可行策略迭代

Apr, 2023

Feasible Policy Iteration

Yujie Yang, Zhilong Zheng, Shengbo Eben Li

TL;DR本文研究安全强化学习问题，提出了一种名为可行策略迭代算法的间接安全强化学习方法，该算法通过使用一个称为约束衰减函数的可行性函数表示可行域，实现了保证策略的约束和可行性并达到优化目标。实验表明，可行策略迭代算法在经典控制任务和安全场景中能够取得更好的表现。

Abstract

safe reinforcement learning (RL) aims to solve an optimal control problem under safety constraints. Existing $\textit{direct}$ safe RL methods use the original constraint throughout the learning process. They eit

safe reinforcement learning direct and indirect methods feasible policy iteration constraint decay function optimal control problem

发现论文，激发创造

可达性约束强化学习

本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。

May, 2022

可行的演员 - 评论家算法：基于约束强化学习实现状态安全性保障

本文提出了可行行动者 - 评论家 (FAC) 算法，是第一个考虑到每个初始状态的状态安全性的无模型约束 RL 方法，通过构造基于 RL 采样的状态 Lagrange 函数并采用附加神经网络逼近状态 Lagrange 乘数，我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。

May, 2021

安全强化学习的一致性可行性表征学习

在安全强化学习领域，通过结合表示学习和可行性导向目标，我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning（FCSRL）的新框架，以从原始状态中提取与安全相关的信息从而增强策略学习和约束估计。在多种向量状态和基于图像的任务的实证评估中，我们的方法能够学习到更好的安全感知嵌入并取得优越的性能，超过了先前的表示学习基线。

May, 2024

带有可行性引导扩散模型的安全离线强化学习

通过可行区域定义的安全约束，最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR（FeasIbility-guided Safe Offline RL）是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。

Jan, 2024

FISAR：基于深度神经网络优化的前不变安全强化学习

本文提出了一种基于深度神经网络优化器的约束优化求解方法，将约束作为 Lyapunov 函数并在策略参数更新动态上施加新的线性约束以达到约束满足的效果，并改进了现有方法在优化策略时的瓶颈，其在数值优化和避障导航等场景中体现了出色的性能。

Jun, 2020

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

模仿优秀，避免恶劣：安全强化学习的增量方法

通过模仿学习和轨迹标记的方法，解决强化学习中的约束问题，并在实验中展示了其优越性能。

Dec, 2023