Apr, 2023

非线性 MPC 的模仿学习:精确 Q-Loss 及其高斯牛顿逼近

TL;DR本文提出了一种基于 Q 函数的损失函数,用于学习非线性模型预测控制策略,并通过模仿学习来应用该策略以达到性能目标和约束条件。我们还提出了一个基于 Gauss-Newton 逼近的 Q 函数损失,以解决 OCP 数值解的计算问题。最后,与行为克隆相比,该损失函数在解决受限非线性系统控制问题时能够显著降低约束违规量,同时实现相当或更好的闭环成本。