基于概率模型预测控制的高效数据强化学习

Jun, 2017

基于概率模型预测控制的高效数据强化学习

Data-Efficient Reinforcement Learning with Probabilistic Model Predictive Control

Sanket Kamthe, Marc Peter Deisenroth

TL;DR本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Abstract

Trial-and-error based reinforcement learning (RL) has seen rapid advancements in recent times, especially with the advent of deep neural networks. However, the majority of autonomous RL algorithms require a large number of interactions with the environment. A large number of interactio

reinforcement learning probabilistic model predictive control gaussian processes model uncertainty constrained environments

发现论文，激发创造

机器人和控制中的高斯过程数据有效学习

本文介绍了一种模型基于策略搜索的自动学习方法，使用概率非参数高斯过渡模型从数据中提取更多信息，以提高学习速度并降低模型误差的影响，已在真实机器人和控制任务中得到了应用。

Feb, 2015

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

基于模型预测控制的高效强化学习的价值估计

通过数据驱动方法，基于模型预测控制设计了一种改进的强化学习方法，该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。

Oct, 2023

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

高斯过程回归的谨慎模型预测控制

本文提出了一种使用高斯过程回归模型的模型预测控制方法，用于建模非线性动态系统并计算模型残差不确定性以实现谨慎控制。通过近似计算实现计算效率，并在模拟实验和硬件实现中展示了该方法在自主赛车方面的表现改进。

May, 2017

基于高斯过程学习的模型预测控制教程

高斯过程学习模型预测控制（GP-MPC）系统地介绍了一种先进的方法，将高斯过程（GP）与模型预测控制（MPC）相结合，以提高复杂系统中的控制效果。它从 GP 回归基础知识开始，说明了它如何提高 MPC 的预测准确性和鲁棒性处理。本教程的一个重点贡献是对 GP-MPC 进行了首次详细、系统的数学形式化，重点关注了推导用于 GP 多步预测的均值和方差传播近似方法。通过讨论在机器人控制中的实际应用，如移动机器人在具有挑战性的地形中的路径跟随和混合车辆编队等，展示了 GP-MPC 的实际有效性和适应性。本教程旨在使 GP-MPC 对研究人员和实践者更加易于理解，为学习控制领域提供深入的理论和实践洞察，并促进复杂系统控制领域的进一步创新。

Apr, 2024

结合模型预测控制和预测强化学习实现稳定的四足机器人行走

本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题，并开发了一种融合了这两种方法的混合控制方法，其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度，并证明了我们的控制器在短时间内能够实现稳定步态，具有实时操作的能力。

Jul, 2023

基于动态规划的模型预测控制和强化学习的统一框架

本文描述了一个将近似动态规划 (DP)、模型预测控制 (MPC) 和强化学习 (RL) 连接起来的新概念框架，其中通过牛顿法的强大机制，离线训练和在线应用算法相互独立地设计，协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了桥梁，并对模型预测控制中的一些基本问题提供了新的见解。

Jun, 2024

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015