在线学习方法的模型预测控制

Feb, 2019

An Online Learning Approach to Model Predictive Control

Nolan Wagener, Ching-An Cheng, Jacob Sacks, Byron Boots

TL;DR本文提出了一种基于动态镜像下降 (DMD) 的模型预测控制 (MPC) 算法 (DMD-MPC)，该算法结合了在线学习算法的思想，是一种通用的 MPC 算法，并在实验中展示了其适用性。

Abstract

model predictive control (MPC) is a powerful technique for solving dynamic control tasks. In this paper, we show that there exists a close connection between MPC and online learning, an abstract theoretical frame

model predictive control online learning dynamic mirror descent non-stationary setups aggressive driving task

发现论文，激发创造

基于动态规划的模型预测控制和强化学习的统一框架

本文描述了一个将近似动态规划 (DP)、模型预测控制 (MPC) 和强化学习 (RL) 连接起来的新概念框架，其中通过牛顿法的强大机制，离线训练和在线应用算法相互独立地设计，协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了桥梁，并对模型预测控制中的一些基本问题提供了新的见解。

Jun, 2024

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

决策与控制中的适应性和通用化优化引擎：一种元强化学习方法

基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功，我们提议通过元强化学习学习一个优化器来更新控制器，该优化器不需要专家演示，并且在未知控制任务中可以实现快速适应。

Jan, 2024

模型预测控制器的改进

研究综合模型预测控制（MPC）问题，发现内部预测模型（PM）的精确度提高会自动提高整体的控制器性能。

Aug, 2023

模型预测控制中的优化学习

通过机器学习优化基于样本的模型预测控制中的更新规则，以在有限的样本数下获得更好的控制效果。

Dec, 2022

基于数据 / 时刻驱动的集体动力学快速预测控制方法

大规模粒子系统的反馈控制合成在模型预测控制（MPC）框架内进行回顾。集体动力学的高维特性阻碍了传统 MPC 算法的性能，该算法基于每个时间步的快速在线动态优化。提出了两种 MPC 的替代方案。首先，讨论了使用监督学习技术对最优反馈定律进行离线近似的方法。然后，回顾了一种基于粒子集合宏观量的顺序线性化动态的过程。这两种方法绕过了在线求解最优控制问题，实现了大规模粒子系统的快速实时反馈合成。数值实验证明了所提出算法的性能。

Feb, 2024

可微分模型预测控制（MPC）用于端到端规划与控制

该研究提出了一种利用模型预测控制（MPC）作为可微政策类来学习连续状态和行动空间中的强化学习的基础，通过使用控制器固定点处的凸逼近的 KKT 条件区分 MPC，从而能够学习控制器的成本和动力学，旨在提高数据效率并优于传统系统识别。

Oct, 2018

非线性深度神经网络建模的高效模型预测控制

该研究论文提出了一种用于动态系统的模型预测控制（MPC）方法，该方法利用深度神经网络（NNs）对系统的非线性和不确定性进行建模，并提出了两种用于解决 MPC 问题的方法：混合整数规划（MIP）方法和线性松弛（LR）方法。进行了广泛的数值模拟来演示和比较 MIP 和 LR 方法的性能。

May, 2024

深度模型预测优化

机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为 “Deep Model Predictive Optimization” 的方法，通过经验直接学习 MPC 优化算法的内环，针对控制问题的需求进行特定优化。通过在一个真实的四旋翼平衡轨迹跟踪任务中的评估，DMPO 在计算预算下提高了性能，并且比基线的 MPC 算法在样本数量和端到端策略训练（MFRL）方面分别提高了 27% 和 19%。此外，由于 DMPO 需要更少的样本，它还可以以 4.3 倍的内存减少实现这些效益。当我们将四旋翼暴露在带有阻力板的扰动风场中时，DMPO 能够零 - shot 调适，同时仍然优于所有基线测试结果。

Oct, 2023

神经网络支持下的模型预测控制实现无法匹配的不确定性缓解

本文介绍了一种基于深度学习的模型预测控制算法，利用深度神经网络作为学习基础的预测控制中的甲骨文，通过一个双时间尺度适应机制来估计不匹配的不确定性并且得到了压缩系统的数值试验验证。

Apr, 2023