长期安全强化学习与二进制反馈

AAAIJan, 2024

Long-term Safe Reinforcement Learning with Binary Feedback

Akifumi Wachi, Wataru Hashimoto, Kazumune Hashimoto

TL;DRLoBiSaRL 是一种安全的强化学习算法，应用于有约束的马尔科夫决策过程中，通过二进制安全反馈和未知的随机状态转移函数来保证长期安全约束。

Abstract

Safety is an indispensable requirement for applying reinforcement learning (RL) to real problems. Although there has been a surge of safe RL algorithms proposed in recent years, most existing work typically 1) relies on receiving numeric →

reinforcement learning safe rl algorithm constrained markov decision processes safety feedback stochastic state transition function

发现论文，激发创造

可证明安全的二进制反馈强化学习

提出了一种名为 SABRE 的元算法，可以用于任何 MDP 环境中，并接收提供二进制状态 / 动作对 safety feedback 的离线 oracle，通过主动学习在训练过程中控制查询 oracle 的数量，并且在合适的技术假设下能保证不会采取不安全操作，最终获得高概率的近似最优安全策略。

Oct, 2022

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Oct, 2023

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

长短期约束驱动的安全强化学习在自动驾驶中的应用

提出一种基于长短期约束的安全强化学习算法，用于优化端到端自动驾驶的训练过程，实现连续状态和行动任务中更高的安全性和长距离决策任务中更高的探索性能。

Mar, 2024

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

本文提出了一种控制器架构，该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合，以确保学习过程中的安全，并利用高斯过程对系统动态进行建模和不确定性分析。

Mar, 2019

线性函数逼近的安全强化学习

本文提出在强化学习过程中学习安全性机制的方法，并针对线性函数状态下的马尔科夫决策过程提出了 SLUCB-QVI 和 RSLUCB-QVI 算法，能够在没有安全问题的情况下实现几乎与现有不安全算法相匹配的一定遗憾水平

Jun, 2021

具有双重鲁棒性的安全强化学习

提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题，包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上，提出了一种双重策略迭代方案，同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外，还设计了一种用于实际实现的深度强化学习算法，称为 DRAC。安全关键的基准评估表明，DRAC 在所有情景下（无对手、安全对手、性能对手）实现了高性能和持续的安全性，并且明显优于所有基准线。

Sep, 2023

针对对抗性干扰的坚固安全强化学习

该论文提出了一种鲁棒安全强化学习框架，解决了在真实控制任务中应用强化学习时外部干扰的安全性问题，该框架通过建立鲁棒不变集合来保证安全，并采用约束强化学习算法进行策略优化。

Oct, 2023