非线性 MPC 的模仿学习：精确 Q-Loss 及其高斯牛顿逼近

Apr, 2023

非线性 MPC 的模仿学习：精确 Q-Loss 及其高斯牛顿逼近

Imitation Learning from Nonlinear MPC via the Exact Q-Loss and its Gauss-Newton Approximation

Andrea Ghezzi, Jasper Hoffman, Jonathan Frey, Joschka Boedecker, Moritz Diehl

TL;DR本文提出了一种基于 Q 函数的损失函数，用于学习非线性模型预测控制策略，并通过模仿学习来应用该策略以达到性能目标和约束条件。我们还提出了一个基于 Gauss-Newton 逼近的 Q 函数损失，以解决 OCP 数值解的计算问题。最后，与行为克隆相比，该损失函数在解决受限非线性系统控制问题时能够显著降低约束违规量，同时实现相当或更好的闭环成本。

Abstract

This work presents a novel loss function for learning nonlinear Model Predictive Control policies via imitation learning. Standard approaches to imitation learning neglect information about the expert and general

nonlinear model predictive control imitation learning optimal control problem neural network gauss-newton approximation

发现论文，激发创造

关于模仿学习的全局收敛性：线性二次调节器的案例

该研究探讨了生成对抗模仿学习在线性二次调节器方面的全局收敛性，提出了交替梯度算法解决非凸 - 凹几何形态可能带来的问题，该算法收敛速度为 Q 线性速率并得到全局最优策略和奖励函数，为理解和控制从强化学习和生成对抗学习中产生的非凸 - 凹交替极小最大优化方面的不稳定性迈出了一步。

Jan, 2019

线性约束在线 LQG 问题的策略优化的遗憾分析

在线优化方法可用于研究在线线性二次型调节器问题，本研究通过在线乐观牛顿法提供了一个基于函数序列的在线控制器，并利用后悔度量定义了算法的性能界限。

Mar, 2024

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

GAN-MPC: 使用来源于不同专家的演示训练参数化成本函数的模型预测控制器

使用对抗生成网络的学习型 MPC 策略可以通过模仿学习来解决某些困难的 MPC 优化问题，特别是当展示代理和模仿代理不重叠时。

May, 2023

填补空白：受模型预测控制启发的可证实无模型二次规划控制器的学习

本文提出了一种新的参数化控制器，借鉴了模型预测控制（Model Predictive Control）的思想。这些控制器采用与线性模型预测控制类似的二次规划结构，通过学习问题参数而不是从模型中导出。该方法可能解决深度强化学习中常见学习控制器（如多层感知器架构）在解释性和性能保证方面的局限性。学习到的控制器不仅具有与模型预测控制相似的可验证特性，如持续可行性和渐近稳定性，而且在控制性能上与模型预测控制和多层感知器控制器达到了相当的经验证明，与模型预测控制相比，在实施上更具计算效率，并且比多层感知器控制器需要更少的可学习策略参数。通过展示车辆漂移操纵任务的实际应用，展示了这些控制器在实际场景中的潜力。

Dec, 2023

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

通过信任域拟 - 牛顿策略优化强化模型预测控制

通过使用参数化模型预测控制器作为策略并利用所需参数的少量，我们提出了一种带有超线性收敛率的限制拟牛顿训练算法进行策略优化。通过解线性方程组的解来计算所需的二阶导数信息。模拟研究表明，所提出的训练算法在数据效率和准确性方面优于其他算法。

May, 2024

逻辑回归 Q-Learning

本研究提出了一种基于正则化线性规划的强化学习算法 QREPS，相对于相似的 REPS 算法增加了 Q - 函数来实现无模型训练，并提供了一种策略评估的凸损失函数来替代传统的平方 Bellman 误差，同时提供了一种实用的最小化损失函数的鞍点优化方法，最终证明了我们算法在一些基准问题上的有效性。

Oct, 2020

通过分布偏移误差检查预示着的函数逼近 $Q$ 学习的可证明高效性

本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法，提出了 DSEC oracle 概念，该算法使用多项式数量的轨迹返回近似最优策略，并可用于设计和分析具有一般函数逼近的强化学习算法。

Jun, 2019

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020