安全的即时约束强化学习：激进探索的作用

Dec, 2023

安全的即时约束强化学习：激进探索的作用

Safe Reinforcement Learning with Instantaneous Constraints: The Role of Aggressive Exploration

Honghao Wei, Xin Liu, Lei Ying

TL;DR该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习（safe RL）。本文提出了一种算法 LSVI-AE，针对成本函数是线性的情况，达到了 $\tilde {\cO}(\sqrt {d^3H^4K})$ 的遗憾值和 $\tilde {\cO}(H \sqrt {dK})$ 的严格约束违规值；针对成本函数属于 Reproducing Kernel Hilbert Space 的情况，达到了 $\cO (H\gamma_K \sqrt {K})$ 的严格约束违规值。这些结果达到了对学习时间长度 $K$ 的最优依赖，与本文提供的下界相匹配，展示了 LSVI-AE 的高效性。其中，我们的方法设计鼓励积极的策略探索，提供了对具有一般成本函数和无关先前安全动作的安全 RL 的独特视角，可能具有独立的研究价值。

Abstract

This paper studies safe reinforcement learning (safe RL) with linear function approximation and under hard instantaneous constraints where unsafe actions must be avoided at each step. Existing studies have considered safe RL with hard instantaneous constraints, but their approaches rel

safe reinforcement learning linear function approximation instantaneous hard constraints reproducing kernel hilbert space lsvi-ae algorithm

发现论文，激发创造

一种近似最优的算法用于瞬时硬约束下的安全强化学习

开发了第一个近似最优的安全强化学习算法，适用于具有不安全状态和行动及瞬间硬性约束和线性混合模型的情况。

Feb, 2023

线性函数逼近的安全强化学习

本文提出在强化学习过程中学习安全性机制的方法，并针对线性函数状态下的马尔科夫决策过程提出了 SLUCB-QVI 和 RSLUCB-QVI 算法，能够在没有安全问题的情况下实现几乎与现有不安全算法相匹配的一定遗憾水平

Jun, 2021

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

可证明高效的迭代 CVaR 强化学习与函数逼近

使用线性和一般函数逼近，对风险敏感的强化学习（RL）进行了研究，提出了名为 ICVaR-RL 的新的风险敏感 RL 公式，为每个决策步骤提供了保证安全性的原则方法，并提出了 ICVaR-L 和 ICVaR-G 两个高效算法，以及对 CVaR 算子的高效逼近，适应 CVaR 的特征的新的岭回归，以及精炼的椭球潜力引理。

Jul, 2023

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

零或有界约束违规的约束马尔可夫决策过程策略学习

本文探讨了在强化学习过程中如何确保系统安全，并提出了一种基于 Markov 决策过程的算法，通过乐观悲观原则实现了安全探索和奖励控制，使系统在保证零约束违规的前提下，获得可观的奖励表现。

Jun, 2021

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

具有顺序最优遗憾界限的核化强化学习

针对使用核回归时的强化学习问题，我们提出了一种乐观性的改进最小二乘法值迭代方法，我们证明了其在一般情况下具有一阶最优遗憾保证，其结果比现有技术有显着的多项式改进。

Jun, 2023