一种近似最优的算法用于瞬时硬约束下的安全强化学习

Feb, 2023

一种近似最优的算法用于瞬时硬约束下的安全强化学习

A Near-Optimal Algorithm for Safe Reinforcement Learning Under Instantaneous Hard Constraints

Ming Shi, Yingbin Liang, Ness Shroff

TL;DR开发了第一个近似最优的安全强化学习算法，适用于具有不安全状态和行动及瞬间硬性约束和线性混合模型的情况。

Abstract

In many applications of reinforcement learning (RL), it is critically important that the algorithm performs safely, such that instantaneous hard constraints are satisfied at each step, and →

发现论文，激发创造

通过原始-对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题，使用一种约束的Markov决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

基于原始对偶策略优化的可证明高效安全探索

该论文使用CMDP公式研究了安全强化学习（SRL）问题，在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法-OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION（OPDOP）算法，利用最小二乘策略估计和安全探索额外奖励项来估计值函数。

Mar, 2020

零或有界约束违规的约束马尔可夫决策过程策略学习

本文探讨了在强化学习过程中如何确保系统安全，并提出了一种基于 Markov 决策过程的算法，通过乐观悲观原则实现了安全探索和奖励控制，使系统在保证零约束违规的前提下，获得可观的奖励表现。

Jun, 2021

线性函数逼近的安全强化学习

本文提出在强化学习过程中学习安全性机制的方法，并针对线性函数状态下的马尔科夫决策过程提出了SLUCB-QVI和RSLUCB-QVI算法，能够在没有安全问题的情况下实现几乎与现有不安全算法相匹配的一定遗憾水平

Jun, 2021

基于状态的安全强化学习：一项调查

本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡，同时总结了当前方法的局限性并探讨了未来的研究方向。

Feb, 2023

安全的即时约束强化学习：激进探索的作用

该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习（safe RL）。本文提出了一种算法LSVI-AE，针对成本函数是线性的情况，达到了$\tilde{\cO}(\sqrt{d^3H^4K})$的遗憾值和$\tilde{\cO}(H \sqrt{dK})$的严格约束违规值；针对成本函数属于Reproducing Kernel Hilbert Space的情况，达到了$\cO(H\gamma_K \sqrt{K})$的严格约束违规值。这些结果达到了对学习时间长度$K$的最优依赖，与本文提供的下界相匹配，展示了LSVI-AE的高效性。其中，我们的方法设计鼓励积极的策略探索，提供了对具有一般成本函数和无关先前安全动作的安全RL的独特视角，可能具有独立的研究价值。

Dec, 2023

长期安全强化学习与二进制反馈

LoBiSaRL是一种安全的强化学习算法，应用于有约束的马尔科夫决策过程中，通过二进制安全反馈和未知的随机状态转移函数来保证长期安全约束。

Jan, 2024

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

具有随机停止时间的约束马尔可夫决策过程的安全增强学习

我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程，其中包含一个安全约束。通过线性规划算法，我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法，并演示了该算法的有效性。同时，我们通过定义状态空间的子集，称为代理集，实现了高效的探索。

Mar, 2024

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态-动作轨迹对安全性的贡献，并使用RL-as-inference策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非Markov安全约束。

May, 2024