一种近似最优的算法用于瞬时硬约束下的安全强化学习
研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题,使用一种约束的Markov决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
该论文使用CMDP公式研究了安全强化学习(SRL)问题,在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法-OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION(OPDOP)算法,利用最小二乘策略估计和安全探索额外奖励项来估计值函数。
Mar, 2020
本文探讨了在强化学习过程中如何确保系统安全,并提出了一种基于 Markov 决策过程的算法,通过乐观悲观原则实现了安全探索和奖励控制,使系统在保证零约束违规的前提下,获得可观的奖励表现。
Jun, 2021
本文提出在强化学习过程中学习安全性机制的方法,并针对线性函数状态下的马尔科夫决策过程提出了SLUCB-QVI和RSLUCB-QVI算法,能够在没有安全问题的情况下实现几乎与现有不安全算法相匹配的一定遗憾水平
Jun, 2021
本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡,同时总结了当前方法的局限性并探讨了未来的研究方向。
Feb, 2023
该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习(safe RL)。本文提出了一种算法LSVI-AE,针对成本函数是线性的情况,达到了$\tilde{\cO}(\sqrt{d^3H^4K})$的遗憾值和$\tilde{\cO}(H \sqrt{dK})$的严格约束违规值;针对成本函数属于Reproducing Kernel Hilbert Space的情况,达到了$\cO(H\gamma_K \sqrt{K})$的严格约束违规值。这些结果达到了对学习时间长度$K$的最优依赖,与本文提供的下界相匹配,展示了LSVI-AE的高效性。其中,我们的方法设计鼓励积极的策略探索,提供了对具有一般成本函数和无关先前安全动作的安全RL的独特视角,可能具有独立的研究价值。
Dec, 2023
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。
Mar, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态-动作轨迹对安全性的贡献,并使用RL-as-inference策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非Markov安全约束。
May, 2024