使用管道 Model Predictive Control 引导的数据增强，高效学习鲁棒性和适应性策略的深度学习

Mar, 2023

使用管道 Model Predictive Control 引导的数据增强，高效学习鲁棒性和适应性策略的深度学习

Efficient Deep Learning of Robust, Adaptive Policies using Tube MPC-Guided Data Augmentation

Tong Zhao, Andrea Tagliabue, Jonathan P. How

TL;DR本文介绍了一种有效的基于模型预测控制的自适应方法，用于在具有挑战性的非结构化环境中实现自主系统的运行控制，以适应多样的环境和模型不确定性。

Abstract

The deployment of agile autonomous systems in challenging, unstructured environments requires adaptation capabilities and robustness to

autonomous systems robustness uncertainties policy learning adaptation

发现论文，激发创造

基于鲁棒管模型预测控制的演示高效引导策略搜索

本文通过引入深度神经网络和模仿学习，提出了一种高效的方法来将计算成本昂贵的模型预测控制器 (MPC) 压缩成更高效的表示，首次提出了 Robust Tube variant (RTMPC) 和数据增强方法来弥补通常在模仿学习中遇到的分布偏移问题，并通过数值和实验评估表明，相对于常用的仿真方法，如 DAgger 和域拓扑，我们的方法在演示效率和对训练期间未见过的扰动的抗干扰性方面表现更好。

Sep, 2021

Tube-NeRF：基于管道引导数据增强与 NeRF 的 MPC 视觉运动策略高效模仿学习

通过结合鲁棒模型预测控制器和数据增强策略，以及利用神经辐射场生成合成图像的方法，该研究提出了一种以图像为唯一水平位置来源，实现定位与轨迹跟踪的视觉驱动策略，其学习效率提升了 80 倍，训练时间减少了 50%，实现了准确的定位和低跟踪误差，仅需 1.5 毫秒的嵌入式推理时间。

Nov, 2023

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

PLATO: 使用自适应轨迹优化的策略学习

PLATO 算法通过模型预测控制生成监督信号训练控制策略，以逐步匹配学到的策略，并保证其安全性，同时维持模型预测控制的成本作为约束，使最终学到的策略在长时间任务中表现良好。实验结果表明，PLATO 算法相较于先前方法，学习速度更快，在训练过程中遇到灾难性失败（坠机）的次数大幅减少，更可能收敛到较好的策略。

Mar, 2016

通过分析策略梯度训练高效控制器

提出一种基于解析策略梯度法（APG）的控制方法来解决机器人系统控制问题，与 MPC 控制方法相比，该方法能够实现类似的轨迹跟踪性能，但计算时间要少一个数量级，在控制设计和优化领域有着极高的实际应用价值。

Sep, 2022

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

决策与控制中的适应性和通用化优化引擎：一种元强化学习方法

基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功，我们提议通过元强化学习学习一个优化器来更新控制器，该优化器不需要专家演示，并且在未知控制任务中可以实现快速适应。

Jan, 2024

GAN-MPC: 使用来源于不同专家的演示训练参数化成本函数的模型预测控制器

使用对抗生成网络的学习型 MPC 策略可以通过模仿学习来解决某些困难的 MPC 优化问题，特别是当展示代理和模仿代理不重叠时。

May, 2023

参数自适应的近似模型预测控制：无需重新训练调整神经网络控制器

参数自适应近似模型预测控制（AMPC）架构，以此实现对低成本微控制器（MCU）上快速运动系统的实际应用。

Apr, 2024

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017