基于梯度的世界模型规划

Dec, 2023

Gradient-based Planning with World Models

Jyothir S V, Siddhartha Jalagam, Yann LeCun, Vlad Sobal

TL;DR人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法，利用可微的世界模型，对比了其他基于 MPC 的方法和基于策略的算法，并在大多数任务中，在具有样本效率的设定下，实现了与其他方法相媲美甚至更好的性能。此外，引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型，优于纯粹的基于策略的方法，这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。

Abstract

The enduring challenge in the field of artificial intelligence has been the control of systems to achieve desired behaviours. While for systems governed by straightforward dynamics equations, methods like Linear Quadratic Regulation (LQR) have historically proven highly effective, most

artificial intelligence neural networks model predictive control world models gradient-based planning

发现论文，激发创造

通过策略引导的轨迹扩散实现的世界模型

我们提出了一种新的世界建模方法 PolyGRAD，它利用扩散模型和策略的动作分布梯度，通过一次传递生成整个在政策上的合成轨迹，该方法在竞争力预测错误率方面与最先进的自回归基线相当，并且使得能在 “虚拟中” 进行政策优化的性能表现良好。

Dec, 2023

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

线性二次型调节器的策略梯度方法全局收敛

该研究桥接了基于模型和基于非模型策略梯度方法之间的差距，表明无模型的策略梯度方法全局收敛到最优解，并且在样本和计算复杂度方面效率很高。

Jan, 2018

通过分析策略梯度训练高效控制器

提出一种基于解析策略梯度法（APG）的控制方法来解决机器人系统控制问题，与 MPC 控制方法相比，该方法能够实现类似的轨迹跟踪性能，但计算时间要少一个数量级，在控制设计和优化领域有着极高的实际应用价值。

Sep, 2022

结合模型预测控制和预测强化学习实现稳定的四足机器人行走

本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题，并开发了一种融合了这两种方法的混合控制方法，其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度，并证明了我们的控制器在短时间内能够实现稳定步态，具有实时操作的能力。

Jul, 2023

将世界模型视为图：学习用于规划的潜在地标

该论文提出 L3P 算法，使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数，其在高维连续控制任务上具有优越的性能，是深度强化学习中可扩展规划的重要进展。

Nov, 2020

填补空白：受模型预测控制启发的可证实无模型二次规划控制器的学习

本文提出了一种新的参数化控制器，借鉴了模型预测控制（Model Predictive Control）的思想。这些控制器采用与线性模型预测控制类似的二次规划结构，通过学习问题参数而不是从模型中导出。该方法可能解决深度强化学习中常见学习控制器（如多层感知器架构）在解释性和性能保证方面的局限性。学习到的控制器不仅具有与模型预测控制相似的可验证特性，如持续可行性和渐近稳定性，而且在控制性能上与模型预测控制和多层感知器控制器达到了相当的经验证明，与模型预测控制相比，在实施上更具计算效率，并且比多层感知器控制器需要更少的可学习策略参数。通过展示车辆漂移操纵任务的实际应用，展示了这些控制器在实际场景中的潜力。

Dec, 2023

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

基于 QP 和 MPC 的强化学习之间的桥梁

本文采用基于 QP（Quadratic Programs）的方法，取代采用 DNN 的方法来学习 RL 中的价值函数和策略，以此提高其可解释性和简化结构，并且给出了调整可解释性和简化结构的方法。

May, 2022