经济非线性 MPC 的 Koopman 模型的端到端强化学习

Aug, 2023

经济非线性 MPC 的 Koopman 模型的端到端强化学习

End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear MPC

Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen

TL;DR(经济) 非线性模型预测控制 ((e) NMPC) 需要全方位准确的动态系统模型，这些模型在所有相关的状态空间区域中都足够准确，并且计算便宜到足以确保实时可行性。我们提出了一种端到端的强化学习方法，用于动态代理模型在 (e) NMPC 应用中实现最优性能，从而在控制性能和计算需求之间实现了良好的平衡。我们在两个应用中验证了我们的方法，这两个应用是基于一个已建立的非线性连续搅拌反应器模型。我们将控制器性能与使用主导的最大预测准确性范例训练的模型的 MPC 进行了比较，并使用强化学习训练的无模型神经网络控制器进行了比较。我们展示了我们的方法与无模型神经网络控制器的性能相当，同时始终优于基于系统识别的模型。此外，我们还展示了 MPC 策略在控制设定变化时无需重新训练。

Abstract

(Economic) nonlinear model predictive control ((e)NMPC) requires dynamic system models that are sufficiently accurate in all relevant state-space regions. These models must also be computationally cheap enough to ensure real-time tractability. Data-driven surrogate models for mechanist

nonlinear model predictive control dynamic surrogate models reinforcement learning computational demand model-free neural network controllers

发现论文，激发创造

基于可微分仿真与优化的任务最优数据驱动代替模型

我们提出了一种用于控制中最优性能的 Koopman 代理模型端到端学习的方法。与以往使用标准强化学习算法的方法不同，我们使用一种训练算法，该算法利用了基于机械模拟模型的环境的潜在可区分性。通过将我们的方法与其他控制器类型和训练算法组合在文献已知的 eNMPC 案例研究中进行比较，我们评估了我们方法的性能。我们的方法在这个问题上表现出卓越的性能，从而为采用动态代理模型的更可靠的控制器开辟了一个有希望的途径。

Mar, 2024

非线性深度神经网络建模的高效模型预测控制

该研究论文提出了一种用于动态系统的模型预测控制（MPC）方法，该方法利用深度神经网络（NNs）对系统的非线性和不确定性进行建模，并提出了两种用于解决 MPC 问题的方法：混合整数规划（MIP）方法和线性松弛（LR）方法。进行了广泛的数值模拟来演示和比较 MIP 和 LR 方法的性能。

May, 2024

决策与控制中的适应性和通用化优化引擎：一种元强化学习方法

基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功，我们提议通过元强化学习学习一个优化器来更新控制器，该优化器不需要专家演示，并且在未知控制任务中可以实现快速适应。

Jan, 2024

可微分模型预测控制（MPC）用于端到端规划与控制

该研究提出了一种利用模型预测控制（MPC）作为可微政策类来学习连续状态和行动空间中的强化学习的基础，通过使用控制器固定点处的凸逼近的 KKT 条件区分 MPC，从而能够学习控制器的成本和动力学，旨在提高数据效率并优于传统系统识别。

Oct, 2018

基于数据驱动的非线性模型约简：Koopman 理论、综合控制形式与 NMPC 案例研究

我们使用 Koopman 理论对带控制的非线性动力学系统进行数据驱动的模型简化。我们提出了将延迟坐标编码和完全状态解码相结合的通用模型结构，以整合简化的 Koopman 建模和状态估计。我们提出了一种深度学习方法来训练所提出的模型。一项案例研究表明我们的方法提供了准确的控制模型，并且可以实时实现高纯度低温精馏柱的非线性模型预测控制。

Jan, 2024

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

增强安全的近似非线性模型预测控制与神经网络

本论文通过神经网络（NN）的逼近研究模型预测控制（MPC）控制器，以实现快速在线计算，并通过安全增强提高收敛和实现约束满足的确定性保证。其控制框架在三个具有不同复杂度的非线性 MPC 基准测试中得到阐述，并证明了与在线优化相比的数量级的计算加速。

Apr, 2023

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

通过信任域拟 - 牛顿策略优化强化模型预测控制

通过使用参数化模型预测控制器作为策略并利用所需参数的少量，我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明，所提出的训练算法在数据效率和准确性方面优于其他算法。

May, 2024

多旋翼集成模型预测控制 I：仿真实验

通过使用集成模型预测控制 (EMPC) 方法，可以实现非线性全模型，将高斯过程作为反向计算的输入，从而提高机器人系统的控制和估计的准确性和效率。

May, 2023