针对连续控制评估基于模型的规划和规划器分摊

ICLROct, 2021

针对连续控制评估基于模型的规划和规划器分摊

Evaluating model-based planning and planner amortization for continuous control

Arunkumar Byravan, Leonard Hasenclever, Piotr Trochim, Mehdi Mirza, Alessandro Davide Ialongo...

TL;DR本文探讨了基于模型的控制方法是否能够超越基于数据的方法。研究人员通过将模型预测控制与学习模型和基于数据的策略学习相结合的方式，对多种具有挑战性的运动任务进行了评估，并发现：经过良好调节的基于数据的策略学习代理是高自由度控制问题的强基准。但是，针对困难的多任务 / 多目标场景，经过训练的动态模型和学习的策略作为模型预测控制的建议，可以显著提高性能和数据效率。最后，研究表明，即使没有性能损失，也可以将基于模型的规划器简化为一种策略，从而将计划计算的负担分担到了策略中。

Abstract

There is a widespread intuition that model-based control methods should be able to surpass the data efficiency of model-free approaches. In this paper we attempt to evaluate this intuition on various challenging

model-based control model-free policy learning locomotion tasks model predictive control data efficiency

发现论文，激发创造

基于时序差分学习的模型预测控制

本文提出了一种称之为 TD-MPC 的新型控制方法，该方法结合了基于模型和基于模型无关的方法。研究结果表明，该方法能够在 DMControl 和 Meta-World 上取得更好的样本效率和渐进性能。

Mar, 2022

可微分模型预测控制（MPC）用于端到端规划与控制

该研究提出了一种利用模型预测控制（MPC）作为可微政策类来学习连续状态和行动空间中的强化学习的基础，通过使用控制器固定点处的凸逼近的 KKT 条件区分 MPC，从而能够学习控制器的成本和动力学，旨在提高数据效率并优于传统系统识别。

Oct, 2018

基于模型的深度强化学习的神经网络动态和无模型微调

该研究论文表明，中等大小的神经网络模型实际上可以与模型预测控制（MPC）相结合，以实现在模型为基础的强化学习算法中的良好样本复杂度，并以提高深度神经网络动力学模型的样本效率为目的初始化模型自由学习。

Aug, 2017

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

基于模型的规划提炼出有理论保证的策略改进

通过开发一种从基于模型的规划到策略的蒸馏方法，我们扩展了软负责人 - 评论者算法（SAC）的策略改进步骤，并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。

Jul, 2023

滤波感知模型预测控制

本文采用滤波器感知的模型预测控制方法，既考虑了不确定性的影响，又可以通过建立一个包含感知能力的模型来显著提高控制性能。

Apr, 2023

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

基于梯度的世界模型规划

人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法，利用可微的世界模型，对比了其他基于 MPC 的方法和基于策略的算法，并在大多数任务中，在具有样本效率的设定下，实现了与其他方法相媲美甚至更好的性能。此外，引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型，优于纯粹的基于策略的方法，这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。

Dec, 2023

在线规划，离线学习：基于模型控制的高效学习和探索

提出了一种 POLO (计划在线，学习离线) 框架，利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题，并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题，最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。

Nov, 2018

实时关注学习模型预测控制器用于现实导航

提出一种新的隐式控制策略，即 Performer-MPC，它使用由 Performers 提供的视觉上下文嵌入进行参数化的学习代价函数，并通过联合训练代价函数和构建控制器来有效地解决对应的双层优化问题。与标准 MPC 策略相比，Performer-MPC 在杂乱环境中的目标达成率提高了 40% 以上，在人类环境中的社会指标提高了 65% 以上。

Sep, 2022