无限时域可微模型预测控制

Jan, 2020

Infinite-Horizon Differentiable Model Predictive Control

Sebastian East, Marco Gallieri, Jonathan Masci, Jan Koutnik, Mark Cannon

TL;DR本文提出了一种可微分的线性二次模型预测控制（MPC）框架，用于安全模仿学习，其中利用从离散时间代数 Riccati 方程（DARE）获得的终端成本函数强制实施无限地平线成本，以便能够证明所学控制器在闭环中稳定。该框架的学习能力在一组数值研究中得到了证明。

Abstract

This paper proposes a differentiable linear quadratic Model Predictive Control (MPC) framework for safe imitation learning. The infinite-horizon cost is enforced using a terminal cost function obtained from the discrete-time algebraic Riccati equation (DARE), so that the learned contro

differentiable linear quadratic mpc safe imitation learning discrete-time algebraic riccati equation augmented lagrangian method stabilizing controller

发现论文，激发创造

可微分模型预测控制（MPC）用于端到端规划与控制

该研究提出了一种利用模型预测控制（MPC）作为可微政策类来学习连续状态和行动空间中的强化学习的基础，通过使用控制器固定点处的凸逼近的 KKT 条件区分 MPC，从而能够学习控制器的成本和动力学，旨在提高数据效率并优于传统系统识别。

Oct, 2018

GAN-MPC: 使用来源于不同专家的演示训练参数化成本函数的模型预测控制器

使用对抗生成网络的学习型 MPC 策略可以通过模仿学习来解决某些困难的 MPC 优化问题，特别是当展示代理和模仿代理不重叠时。

May, 2023

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022

具有离散时间控制屏障函数的安全关键模型预测控制

本研究提出了一种利用控制屏障函数的安全性关键模型预测控制策略，保证系统的安全性并通过模型预测控制实现最佳性能，同时在一个二维双积分器模型和一个竞速车辆模型上验证了该算法的有效性。

Jul, 2020

非线性深度神经网络建模的高效模型预测控制

该研究论文提出了一种用于动态系统的模型预测控制（MPC）方法，该方法利用深度神经网络（NNs）对系统的非线性和不确定性进行建模，并提出了两种用于解决 MPC 问题的方法：混合整数规划（MIP）方法和线性松弛（LR）方法。进行了广泛的数值模拟来演示和比较 MIP 和 LR 方法的性能。

May, 2024

深度神经网络模型预测控制框架介绍及快速控制器实现

基于深度神经网络的非线性模型预测控制（MPC）在同质压燃点火（HCCI）燃烧控制方面的实验实施结果良好，具有优秀的 IMEP 轨迹跟踪性能和过程约束的观测情况。

Oct, 2023

应用于统计学习的平滑模型预测控制

本论文研究采用阻碍函数作为硬约束的线性模型预测控制策略的平滑逼近，通过精细的分析展示其平滑常数可以被仔细控制，从而为采样状态 - 动作对逼近 MPC 策略的新样本复杂度结果铺平道路

Jun, 2023

可证明安全且鲁棒的基于学习的模型预测控制

本研究介绍了一种学习基础的模型预测控制 (LBMPC) 方案，在提高系统性能的同时提供稳健性的确定性保证。该方案利用统计识别工具识别系统的更丰富模型，通过维护两个模型，可以在一个优化框架中将安全性和性能隔离。LBMPC 通过选择最小化成本的输入来提高性能，并通过检查模糊模型稳定性来确保安全性和鲁棒性。此外，我们证明如果系统充分兴奋，则 LBMPC 控制行动以概率收敛为使用真实动力学计算的 MPC 的行动。

Jul, 2011

填补空白：受模型预测控制启发的可证实无模型二次规划控制器的学习

本文提出了一种新的参数化控制器，借鉴了模型预测控制（Model Predictive Control）的思想。这些控制器采用与线性模型预测控制类似的二次规划结构，通过学习问题参数而不是从模型中导出。该方法可能解决深度强化学习中常见学习控制器（如多层感知器架构）在解释性和性能保证方面的局限性。学习到的控制器不仅具有与模型预测控制相似的可验证特性，如持续可行性和渐近稳定性，而且在控制性能上与模型预测控制和多层感知器控制器达到了相当的经验证明，与模型预测控制相比，在实施上更具计算效率，并且比多层感知器控制器需要更少的可学习策略参数。通过展示车辆漂移操纵任务的实际应用，展示了这些控制器在实际场景中的潜力。

Dec, 2023

基于稳定性信息的贝叶斯优化用于 MPC 成本函数学习

设计预测控制器以实现闭环性能最优化，同时保持安全和稳定性是具有挑战性的。本文通过在考虑闭环稳定性的情况下，利用受限贝叶斯优化来学习预测控制参数，将成本函数参数化为前馈神经网络，并进行闭环行为和模型 - 过程不匹配的最小化，从而提供了高自由度和有效全局优化实现期望的闭环行为。我们通过学习控制器参数的稳定性约束扩展了这个框架，并利用底层 MPC 的最优值函数作为一个 Lyapunov 候选。模拟结果验证了所提出方法的有效性，突显了其性能和安全能力。

Apr, 2024