支持神经网络的模型预测控制的安全和稳定闭环学习

Sep, 2024

支持神经网络的模型预测控制的安全和稳定闭环学习

Safe and Stable Closed-Loop Learning for Neural-Network-Supported Model Predictive Control

Sebastian Hirt, Maik Pfefferkorn, Rolf Findeisen

TL;DR本研究解决了在不完全信息条件下，控制策略学习中的安全性问题。通过应用贝叶斯优化，我们提出了一种灵活的参数化最优控制方法，确保闭环系统的长期性能，同时提供严格的概率安全保障。研究表明，该方法在确保系统安全和稳定的前提下，有效提升了闭环控制性能。

Abstract

Safe Learning of control policies remains challenging, both in optimal control and reinforcement learning. In this article, we consider Safe Learning of parametrized predictive controllers that operate with incom

发现论文，激发创造

可证明安全且鲁棒的基于学习的模型预测控制

本研究介绍了一种学习基础的模型预测控制 (LBMPC) 方案，在提高系统性能的同时提供稳健性的确定性保证。该方案利用统计识别工具识别系统的更丰富模型，通过维护两个模型，可以在一个优化框架中将安全性和性能隔离。LBMPC 通过选择最小化成本的输入来提高性能，并通过检查模糊模型稳定性来确保安全性和鲁棒性。此外，我们证明如果系统充分兴奋，则 LBMPC 控制行动以概率收敛为使用真实动力学计算的 MPC 的行动。

Jul, 2011

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用Lyapunov稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

基于学习的模型预测控制用于安全探索

本文提出了一种基于学习的模型预测控制方案，其可以提供可证明的高概率安全保证，并利用正态分布先验的规则性假设来构建可证明准确的置信区间，保证轨迹满足安全约束，通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。

Mar, 2018

Lyapunov神经网络：自适应稳定性认证用于动态系统的安全学习

本文提出了一种基于神经网络构建Lyapunov函数并通过训练算法将其适应到状态空间中最大安全区域形状的方法，以学习非线性闭环动力系统的准确安全证明，并在模拟倒立摆中演示了该方法的应用，讨论了如何将该方法与动态系统的统计模型一起用于安全学习算法。

Aug, 2018

基于贝叶斯学习的适应性安全关键系统控制

提出了一种满足安全性和实时性约束，利用贝叶斯模型学习和随机CLFs、CBFs控制框架的深度神经网络模型不确定性学习的方法，并在高速行进的火星车任务中进行了演示。

Oct, 2019

基于贝叶斯优化的鲁棒模型预测控制在模型参数不确定性下的应用

提出了一种自适应优化方法，用于调整随机模型预测控制(MPC)的超参数，同时基于性能奖励估计转换模型参数的概率分布。用异方差噪声模型开发贝叶斯优化算法来处理超参数和动力学模型参数空间中的噪声变化。试验结果表明我们的方法可以得到更高的累积回报和更稳定的控制器。

Mar, 2022

增强安全的近似非线性模型预测控制与神经网络

本论文通过神经网络（NN）的逼近研究模型预测控制（MPC）控制器，以实现快速在线计算，并通过安全增强提高收敛和实现约束满足的确定性保证。其控制框架在三个具有不同复杂度的非线性MPC基准测试中得到阐述，并证明了与在线优化相比的数量级的计算加速。

Apr, 2023

应用于统计学习的平滑模型预测控制

本论文研究采用阻碍函数作为硬约束的线性模型预测控制策略的平滑逼近，通过精细的分析展示其平滑常数可以被仔细控制，从而为采样状态-动作对逼近MPC策略的新样本复杂度结果铺平道路

Jun, 2023

基于稳定性信息的贝叶斯优化用于MPC成本函数学习

设计预测控制器以实现闭环性能最优化，同时保持安全和稳定性是具有挑战性的。本文通过在考虑闭环稳定性的情况下，利用受限贝叶斯优化来学习预测控制参数，将成本函数参数化为前馈神经网络，并进行闭环行为和模型-过程不匹配的最小化，从而提供了高自由度和有效全局优化实现期望的闭环行为。我们通过学习控制器参数的稳定性约束扩展了这个框架，并利用底层MPC的最优值函数作为一个Lyapunov候选。模拟结果验证了所提出方法的有效性，突显了其性能和安全能力。

Apr, 2024

稳定非线性系统性能提升的学习

通过将非线性系统的内部模型控制原理与最先进的无约束优化方法相结合，我们解决了数据驱动和深度学习方法提高性能的问题，同时保证闭环稳定性。我们的方法可以学习稳定非线性系统上任意深的神经网络控制器，即使优化过早停止，即使未知基准动态，也能保证Lp闭环稳定性。我们通过多个数值实验讨论了所提出控制方案的实施细节，包括分布式方案和对应的优化过程，并展示了通过自由塑造代价函数的潜力。

May, 2024