强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

Oct, 2023

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

Reinforcement Learning in a Safety-Embedded MDP with Trajectory Optimization

Fan Yang, Wenxuan Zhou, Zuxin Liu, Ding Zhao, David Held

TL;DR这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Abstract

safe reinforcement learning (RL) plays an important role in applying RL algorithms to safety-critical real-world applications, addressing the trade-off between maximizing rewards and adhering to safety constraints

safe reinforcement learning rl algorithms trajectory optimization safety constraints markov decision process

发现论文，激发创造

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

通过原始 - 对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

安全优化增强学习通过多目标策略优化

基于多目标策略优化框架的新型无模型安全强化学习算法引入，通过环境奖励函数和安全评论家对策略进行优化，以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件，并引入了一个攻击参数，允许对所述权衡进行微调。实证结果表明，与六种不同最新颖的 Safe RL 方法相比，提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数，并获得更高或竞争性的策略回报，在安全关键应用方面表现出明显的优越性。

Feb, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

基于优势干预的安全强化学习

提出了一个新的算法 SAILR，该算法使用基于优势函数的干预机制在训练期间保持代理的安全，并使用为无约束 MDP 设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。

Jun, 2021

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

安全强化学习中平衡奖励与安全性优化：梯度操控视角

利用梯度操作理论解决强化学习中奖励和安全之间的冲突，通过提出一种软切换策略优化方法实现奖励和安全的平衡，进而提供一个安全强化学习框架。

May, 2024