模型不确定性下分布安全强化学习：一种基于可微凸规划的单层方法

Oct, 2023

模型不确定性下分布安全强化学习：一种基于可微凸规划的单层方法

Distributionally Safe Reinforcement Learning under Model Uncertainty: A Single-Level Approach by Differentiable Convex Programming

PDF

Alaa Eddine Chriat, Chuangchuang Sun

TL;DR通过使用可微的凸规划，本文提出了一种可追踪的分布安全强化学习框架，旨在解决安全关键环境中由于分布变动而产生的不确定性问题，在保证安全约束的同时有效地找到最坏情况下的不确定性，并通过测试验证了该方法在安全保证方面的显著改进。

Abstract

safety assurance is uncompromisable for safety-critical environments with the presence of drastic model uncertainties (e.g., distributional shift), especially with humans in the loop. However, incorporating uncer

safety assurance distributional shift reinforcement learning tractable framework worst-case uncertainty

发现论文，激发创造

面向分布式鲁棒安全强化学习的风险规避模型不确定性

我们提出了一个采用深度强化学习的框架，通过相干畸变风险度量考虑模型不确定性的风险规避观点，并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题，并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。

Jan, 2023

基于可微凸规划的约束元元强化学习用于可调适安全保证

通过元学习方法，本文研究了在非稳态环境下确保安全性的独特挑战，并采用可微凸规划的连续凸约束策略更新，以实现在受限环境中的元学习和快速任务适应。

Dec, 2023

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

通过原始 - 对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

针对对抗性干扰的坚固安全强化学习

该论文提出了一种鲁棒安全强化学习框架，解决了在真实控制任务中应用强化学习时外部干扰的安全性问题，该框架通过建立鲁棒不变集合来保证安全，并采用约束强化学习算法进行策略优化。

Oct, 2023

基于高效信任区域的安全增强学习与低偏差分布演员 - 评论家

本文提出了一种基于信任区域方法的安全分布式强化学习方法，包括针对分布式评论家的估计偏差的降低，用 Q 函数表示的信任区域方法的新代理以及从不安全的初始代理找到满足所有约束的代理的梯度集成方法，实验表明，该方法表现出最小的约束违规，同时实现了高收益。

Jan, 2023

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023