通过学习不良轨迹的时间模式和避免负面副作用来进行安全的 MDP 规划

Apr, 2023

通过学习不良轨迹的时间模式和避免负面副作用来进行安全的 MDP 规划

Safe MDP Planning by Learning Temporal Patterns of Undesirable Trajectories and Averting Negative Side Effects

Siow Meng Low, Akshat Kumar, Scott Sanner

TL;DR本文介绍了一种用于安全 MDP 规划的方法，它基于对状态 - 动作轨迹的安全度量，用监督学习模型学习非马尔可夫安全模式，并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明，该方法可以满足非马尔可夫的安全约束条件，比马尔可夫 NCE 的先前最佳方法更好。

Abstract

In safe mdp planning, a cost function based on the current state and action is often used to specify safety aspects. In the real world, often the state representation used may lack sufficient fidelity to specify such safety constraints. Operating based on an incomplete model can often

safe mdp planning safety signals supervised learning model lagrange multiplier method non-markovian safety constraints

发现论文，激发创造

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

针对非稳态 MDPs 的安全策略改进

为了确保在具有高风险影响的平稳变化的非稳态决策问题上的安全性和高置信度，本文提出了一种方法，该方法通过模型自由强化学习与时间序列分析的综合，将一种称为 Seldonian algorithm 的安全算法扩展。

Oct, 2020

利用高斯过程进行有限马尔可夫决策过程的安全探索

本文提出针对有安全限制的探索问题的新型算法，使用高斯过程先验来表达未知安全限制，具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。

Jun, 2016

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020

C-MCTS：蒙特卡洛树搜索进行安全规划

提出了一种基于 Constrained MCTS 框架的采样式规划算法，使用安全性评论家评估代理的代价，能更有效地满足代价约束条件，且在模型不匹配时更少受到代价违规的影响。

May, 2023

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Oct, 2023

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

通过原始 - 对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019