使用监督学习构建短视多方计算策略

Jan, 2024

使用监督学习构建短视多方计算策略

On Building Myopic MPC Policies using Supervised Learning

Christopher A. Orrico, Bokan Yang, Dinesh Krishnamoorthy

TL;DR使用监督学习技术结合模型预测控制（MPC）在近期引起了显著关注，特别是在近似显式MPC领域，其中使用深度神经网络等函数逼近器通过离线生成的最优状态-动作对来学习MPC策略。本文考虑了一种替代策略，即使用监督学习离线学习最优值函数而不是最优策略。这可以用作具有非常短预测视野的近视型MPC中的代价函数，从而大大减少在线计算负担而不影响控制器性能。该方法与现有的值函数逼近研究不同之处在于，它通过使用离线收集的状态-值对来学习代价函数，而不是闭环性能数据。通过使用基于敏感度的数据增强方案解决了用于培训的状态-值对生成的成本问题。

Abstract

The application of supervised learning techniques in combination with model predictive control (MPC) has recently generated significant interest, particularly in the area of →

发现论文，激发创造

基于MPC引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

可微分模型预测控制（MPC）用于端到端规划与控制

该研究提出了一种利用模型预测控制（MPC）作为可微政策类来学习连续状态和行动空间中的强化学习的基础，通过使用控制器固定点处的凸逼近的KKT条件区分MPC，从而能够学习控制器的成本和动力学，旨在提高数据效率并优于传统系统识别。

Oct, 2018

在线学习方法的模型预测控制

本文提出了一种基于动态镜像下降(DMD)的模型预测控制(MPC)算法(DMD-MPC)，该算法结合了在线学习算法的思想，是一种通用的MPC算法，并在实验中展示了其适用性。

Feb, 2019

离线监督学习VS在线直接策略优化：神经网络最优反馈控制的比较研究和统一训练范式

本文旨在寻找以神经网络为基础的反馈控制器，以高效地解决最优控制问题。研究表明，在线直接政策优化和离线监督学习这两种方法中，离线监督学习的优化和训练时间更具优势，并提出了一种称为'Supervised Pre-train and Fine-tune'的训练方法，可显著提高性能和鲁棒性。

Nov, 2022

模型预测控制中的优化学习

通过机器学习优化基于样本的模型预测控制中的更新规则，以在有限的样本数下获得更好的控制效果。

Dec, 2022

GAN-MPC: 使用来源于不同专家的演示训练参数化成本函数的模型预测控制器

使用对抗生成网络的学习型MPC策略可以通过模仿学习来解决某些困难的MPC优化问题，特别是当展示代理和模仿代理不重叠时。

May, 2023

深度模型预测优化

机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为“Deep Model Predictive Optimization”的方法，通过经验直接学习 MPC 优化算法的内环，针对控制问题的需求进行特定优化。通过在一个真实的四旋翼平衡轨迹跟踪任务中的评估，DMPO 在计算预算下提高了性能，并且比基线的 MPC 算法在样本数量和端到端策略训练（MFRL）方面分别提高了 27% 和 19%。此外，由于 DMPO 需要更少的样本，它还可以以 4.3 倍的内存减少实现这些效益。当我们将四旋翼暴露在带有阻力板的扰动风场中时，DMPO 能够零-shot 调适，同时仍然优于所有基线测试结果。

Oct, 2023

填补空白：受模型预测控制启发的可证实无模型二次规划控制器的学习

本文提出了一种新的参数化控制器，借鉴了模型预测控制（Model Predictive Control）的思想。这些控制器采用与线性模型预测控制类似的二次规划结构，通过学习问题参数而不是从模型中导出。该方法可能解决深度强化学习中常见学习控制器（如多层感知器架构）在解释性和性能保证方面的局限性。学习到的控制器不仅具有与模型预测控制相似的可验证特性，如持续可行性和渐近稳定性，而且在控制性能上与模型预测控制和多层感知器控制器达到了相当的经验证明，与模型预测控制相比，在实施上更具计算效率，并且比多层感知器控制器需要更少的可学习策略参数。通过展示车辆漂移操纵任务的实际应用，展示了这些控制器在实际场景中的潜力。

Dec, 2023

基于稳定性信息的贝叶斯优化用于MPC成本函数学习

设计预测控制器以实现闭环性能最优化，同时保持安全和稳定性是具有挑战性的。本文通过在考虑闭环稳定性的情况下，利用受限贝叶斯优化来学习预测控制参数，将成本函数参数化为前馈神经网络，并进行闭环行为和模型-过程不匹配的最小化，从而提供了高自由度和有效全局优化实现期望的闭环行为。我们通过学习控制器参数的稳定性约束扩展了这个框架，并利用底层MPC的最优值函数作为一个Lyapunov候选。模拟结果验证了所提出方法的有效性，突显了其性能和安全能力。

Apr, 2024

神经水平模型预测控制 -- 通过神经网络增加计算效率

本研究针对模型预测控制算法在快速应用和低功耗边缘设备中面临的优化挑战，提出了一种基于机器学习的解决方案。通过使用前馈神经网络减少在线优化的计算负担，同时确保安全性和约束满足，该方法在模拟中验证了计算效率的提升，并保持近最佳性能。这一方案可广泛应用于机器人和嵌入式等需快速响应的场景。

Aug, 2024