GAN-MPC: 使用来源于不同专家的演示训练参数化成本函数的模型预测控制器

May, 2023

GAN-MPC: 使用来源于不同专家的演示训练参数化成本函数的模型预测控制器

GAN-MPC: Training Model Predictive Controllers with Parameterized Cost Functions using Demonstrations from Non-identical Experts

PDF

Returaj Burnwal, Anirban Santara, Nirav P. Bhatt, Balaraman Ravindran, Gaurav Aggarwal

TL;DR使用对抗生成网络的学习型 MPC 策略可以通过模仿学习来解决某些困难的 MPC 优化问题，特别是当展示代理和模仿代理不重叠时。

Abstract

model predictive control (MPC) is a popular approach for trajectory optimization in practical robotics applications. MPC policies can optimize trajectory parameters under kinodynamic and safety constraints and pr

model predictive control learnable-mpc generative adversarial network imitation learning robotics

发现论文，激发创造

模型预测控制中的优化学习

通过机器学习优化基于样本的模型预测控制中的更新规则，以在有限的样本数下获得更好的控制效果。

Dec, 2022

决策与控制中的适应性和通用化优化引擎：一种元强化学习方法

基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功，我们提议通过元强化学习学习一个优化器来更新控制器，该优化器不需要专家演示，并且在未知控制任务中可以实现快速适应。

Jan, 2024

可微分模型预测控制（MPC）用于端到端规划与控制

该研究提出了一种利用模型预测控制（MPC）作为可微政策类来学习连续状态和行动空间中的强化学习的基础，通过使用控制器固定点处的凸逼近的 KKT 条件区分 MPC，从而能够学习控制器的成本和动力学，旨在提高数据效率并优于传统系统识别。

Oct, 2018

无限时域可微模型预测控制

本文提出了一种可微分的线性二次模型预测控制（MPC）框架，用于安全模仿学习，其中利用从离散时间代数 Riccati 方程（DARE）获得的终端成本函数强制实施无限地平线成本，以便能够证明所学控制器在闭环中稳定。该框架的学习能力在一组数值研究中得到了证明。

Jan, 2020

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

基于鲁棒管模型预测控制的演示高效引导策略搜索

本文通过引入深度神经网络和模仿学习，提出了一种高效的方法来将计算成本昂贵的模型预测控制器 (MPC) 压缩成更高效的表示，首次提出了 Robust Tube variant (RTMPC) 和数据增强方法来弥补通常在模仿学习中遇到的分布偏移问题，并通过数值和实验评估表明，相对于常用的仿真方法，如 DAgger 和域拓扑，我们的方法在演示效率和对训练期间未见过的扰动的抗干扰性方面表现更好。

Sep, 2021

基于高斯过程学习的模型预测控制教程

高斯过程学习模型预测控制（GP-MPC）系统地介绍了一种先进的方法，将高斯过程（GP）与模型预测控制（MPC）相结合，以提高复杂系统中的控制效果。它从 GP 回归基础知识开始，说明了它如何提高 MPC 的预测准确性和鲁棒性处理。本教程的一个重点贡献是对 GP-MPC 进行了首次详细、系统的数学形式化，重点关注了推导用于 GP 多步预测的均值和方差传播近似方法。通过讨论在机器人控制中的实际应用，如移动机器人在具有挑战性的地形中的路径跟随和混合车辆编队等，展示了 GP-MPC 的实际有效性和适应性。本教程旨在使 GP-MPC 对研究人员和实践者更加易于理解，为学习控制领域提供深入的理论和实践洞察，并促进复杂系统控制领域的进一步创新。

Apr, 2024

使用监督学习构建短视多方计算策略

使用监督学习技术结合模型预测控制（MPC）在近期引起了显著关注，特别是在近似显式 MPC 领域，其中使用深度神经网络等函数逼近器通过离线生成的最优状态 - 动作对来学习 MPC 策略。本文考虑了一种替代策略，即使用监督学习离线学习最优值函数而不是最优策略。这可以用作具有非常短预测视野的近视型 MPC 中的代价函数，从而大大减少在线计算负担而不影响控制器性能。该方法与现有的值函数逼近研究不同之处在于，它通过使用离线收集的状态 - 值对来学习代价函数，而不是闭环性能数据。通过使用基于敏感度的数据增强方案解决了用于培训的状态 - 值对生成的成本问题。

Jan, 2024

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017