控制中的安全探索鲁棒回归

Jun, 2019

Robust Regression for Safe Exploration in Control

Anqi Liu, Guanya Shi, Soon-Jo Chung, Anima Anandkumar, Yisong Yue

TL;DR研究在序列控制问题中的安全学习和探索问题，提出了一种深度健壮回归模型来预测安全探索的不确定性界限，证明了该方法在难以指定好的高斯过程先验的情况下优于传统的基于高斯过程的安全探索方法。

Abstract

We study the problem of safe learning and exploration in sequential control problems. The goal is to safely collect data samples from oper

safe learning sequential control uncertainty robust regression exploration

发现论文，激发创造

基于学习的模型预测控制用于安全探索

本文提出了一种基于学习的模型预测控制方案，其可以提供可证明的高概率安全保证，并利用正态分布先验的规则性假设来构建可证明准确的置信区间，保证轨迹满足安全约束，通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。

Mar, 2018

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

非线性系统的安全保证探索

使用最优控制提出新的安全保证的探索框架，其中包括对于非线性系统的有限时间样本复杂度边界下的保证的探索，具有任意高概率的可靠性和安全性，在复杂的非线性动态和未知领域的许多实际情景中具备一般性和适用性。

Feb, 2024

强化学习中的安全探索：广义形式与算法

在本篇论文中，我们提出了一个名为广义安全探索（GSE）的问题，并使用元算法 MASE 解决了这个问题，该算法结合了无限制的强化学习算法和不确定性量化器，以确保当前回合的安全性，同时在实际安全违规之前对不安全的探索进行适当的惩罚，以防止它们在未来回合中发生。MASE 算法的优势在于我们可以在合理假设下优化策略，同时以很高的概率保证不违反任何安全约束。最后，我们演示了我们提出的算法在方格世界和 Safety Gym 基准测试上取得了比现有算法更好的性能，且即使在训练过程中也没有违反任何安全约束。

Oct, 2023

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023

勘探的保守安全批评家

本文介绍了一种基于保守安全估计的强化学习安全探索方法，通过批判学习环境状态的保守安全估计，从理论上上界限制了灾难性失败概率，实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能，同步显著降低了灾难性失败率。

Oct, 2020

面向分布式鲁棒安全强化学习的风险规避模型不确定性

我们提出了一个采用深度强化学习的框架，通过相干畸变风险度量考虑模型不确定性的风险规避观点，并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题，并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。

Jan, 2023

高效计算的高斯过程在主动学习中的安全界限

基于自适应采样的高斯过程后验中极值中位数的可证明安全边界为活动学习提供了有效的安全约束，以便在物理系统中进行设计空间的探索。

Feb, 2024

利用高斯过程进行有限马尔可夫决策过程的安全探索

本文提出针对有安全限制的探索问题的新型算法，使用高斯过程先验来表达未知安全限制，具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。

Jun, 2016