将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

Jan, 2023

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

Incorporating Recurrent Reinforcement Learning into Model Predictive Control for Adaptive Control in Autonomous Driving

Yuan Zhang, Joschka Boedecker, Chuxuan Li, Guyue Zhou

TL;DR通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Abstract

model predictive control (MPC) is attracting tremendous attention in the autonomous driving task as a powerful control technique. The success of an MPC controller strongly depends on an accurate internal

model predictive control partially observed markov decision process recurrent reinforcement learning autonomous driving dynamics model

发现论文，激发创造

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

基于动态规划的模型预测控制和强化学习的统一框架

本文描述了一个将近似动态规划 (DP)、模型预测控制 (MPC) 和强化学习 (RL) 连接起来的新概念框架，其中通过牛顿法的强大机制，离线训练和在线应用算法相互独立地设计，协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了桥梁，并对模型预测控制中的一些基本问题提供了新的见解。

Jun, 2024

使用鲁棒性模型预测控制的安全强化学习

本文提出了一种将强化学习与模型预测控制相结合的方法，以充分利用两者的优势，并获得既具有最优性又安全的控制器。在模拟中，我们通过数值实验证明了该方法的有效性。

Jun, 2019

决策与控制中的适应性和通用化优化引擎：一种元强化学习方法

基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功，我们提议通过元强化学习学习一个优化器来更新控制器，该优化器不需要专家演示，并且在未知控制任务中可以实现快速适应。

Jan, 2024

模型预测控制器的改进

研究综合模型预测控制（MPC）问题，发现内部预测模型（PM）的精确度提高会自动提高整体的控制器性能。

Aug, 2023

结合模型预测控制和预测强化学习实现稳定的四足机器人行走

本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题，并开发了一种融合了这两种方法的混合控制方法，其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度，并证明了我们的控制器在短时间内能够实现稳定步态，具有实时操作的能力。

Jul, 2023

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

基于深度强化学习的实际驾驶环境离散控制

本篇研究提出了一个基于真实驾驶环境的 MDP 框架，使用多智能体学习算法来实现对自动驾驶车辆的训练，并提出了可靠的初始化、数据增强和训练技术来实现最小化的视频数据和培训，最终在 TORCS 虚拟驾驶环境中得到了验证。

Nov, 2022

利用随机森林学习模型预测控制的残差模型，以实现自动驾驶

提出了一种分层学习残差模型，并应用于自动驾驶中的学习型模型预测控制，结果表明相比于高斯过程非线性模型预测控制，该方法在保持更低计算消耗的同时，实现了更好的跟踪精度。

Apr, 2023