受限马尔可夫决策过程中安全的强化学习

ICMLAug, 2020

受限马尔可夫决策过程中安全的强化学习

Safe Reinforcement Learning in Constrained Markov Decision Processes

Akifumi Wachi, Yanan Sui

TL;DR该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Abstract

safe reinforcement learning has been a promising approach for optimizing the policy of an agent that operates in safety-critical applications. In this paper, we propose an algorithm, SNO-MDP, that explores and optimizes Markov decision processes under unknown →

safe reinforcement learning sno-mdp algorithm markov decision processes safety constraints cumulative reward

发现论文，激发创造

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

具有随机停止时间的约束马尔可夫决策过程的安全增强学习

我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程，其中包含一个安全约束。通过线性规划算法，我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法，并演示了该算法的有效性。同时，我们通过定义状态空间的子集，称为代理集，实现了高效的探索。

Mar, 2024

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Oct, 2023

利用高斯过程进行有限马尔可夫决策过程的安全探索

本文提出针对有安全限制的探索问题的新型算法，使用高斯过程先验来表达未知安全限制，具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。

Jun, 2016

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

通过原始 - 对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

SCPO: 带安全评论家策略优化的安全强化学习

本研究介绍了一种新的安全强化学习算法（Safety Critic Policy Optimization，SCPO），通过引入安全评判机制，该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡，并在实证验证中证明了其有效性。

Nov, 2023

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

GenSafe：基于简化马尔可夫决策过程模型的通用安全增强器

为了提高深度强化学习中系统的安全性，在这项工作中引入了一个名为 GenSafe 的通用安全增强器，通过模型降阶技术构建了一个低维度的 Proxy 来改善代理行为，从而提供了跨多种 SRL 方法的广泛兼容性，它不仅能够改善安全性能，特别是在早期学习阶段，还能够维持任务性能在一个令人满意的水平。

Jun, 2024

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022