基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

Sep, 2015

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

Learning Deep Control Policies for Autonomous Aerial Vehicles with MPC-Guided Policy Search

Tianhao Zhang, Gregory Kahn, Sergey Levine, Pieter Abbeel

TL;DR模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Abstract

model predictive control (MPC) is an effective method for controlling robotic systems, particularly autonomous aerial vehicles such as quadcopters. However, application of MPC can be computationally demanding, and typically requires estimating the state of the system, which can be chal

model predictive control reinforcement learning guided policy search obstacle avoidance quadrotor

发现论文，激发创造

应用 MPC - 强化学习方法的无人机路径规划考虑避障

本文提出一种基于深度学习算法的无人机航迹规划方法，采用 LSTM-MPC 作为决策策略，并结合预测池来提高系统鲁棒性和效率，同时通过数值仿真实验验证了该方法的有效性。

Feb, 2023

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

使用管道 Model Predictive Control 引导的数据增强，高效学习鲁棒性和适应性策略的深度学习

本文介绍了一种有效的基于模型预测控制的自适应方法，用于在具有挑战性的非结构化环境中实现自主系统的运行控制，以适应多样的环境和模型不确定性。

Mar, 2023

通过分析策略梯度训练高效控制器

提出一种基于解析策略梯度法（APG）的控制方法来解决机器人系统控制问题，与 MPC 控制方法相比，该方法能够实现类似的轨迹跟踪性能，但计算时间要少一个数量级，在控制设计和优化领域有着极高的实际应用价值。

Sep, 2022

结合模型预测控制和预测强化学习实现稳定的四足机器人行走

本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题，并开发了一种融合了这两种方法的混合控制方法，其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度，并证明了我们的控制器在短时间内能够实现稳定步态，具有实时操作的能力。

Jul, 2023

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

深度交互式动作预测与规划：通过动作预测模型进行游戏

本研究提出一种多智能体策略网络和博弈论模型预测控制器相结合的方案，将自动驾驶车辆的预测和规划层紧密耦合，能够有效生成交互行为。

Apr, 2022

深度模型预测优化

机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为 “Deep Model Predictive Optimization” 的方法，通过经验直接学习 MPC 优化算法的内环，针对控制问题的需求进行特定优化。通过在一个真实的四旋翼平衡轨迹跟踪任务中的评估，DMPO 在计算预算下提高了性能，并且比基线的 MPC 算法在样本数量和端到端策略训练（MFRL）方面分别提高了 27% 和 19%。此外，由于 DMPO 需要更少的样本，它还可以以 4.3 倍的内存减少实现这些效益。当我们将四旋翼暴露在带有阻力板的扰动风场中时，DMPO 能够零 - shot 调适，同时仍然优于所有基线测试结果。

Oct, 2023