Jan, 2024

元学习线性二次调节器:一种基于策略梯度的模型无关 LQR 的 MAML 方法

TL;DR在多任务、异构和无模型的情况下,我们研究了学习线性二次调节器(LQR)的问题。我们表征了基于策略梯度的无模型元学习方法(MAML)(Finn et al.,2017)在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR 方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器,直到任务异质性偏差为止。此外,在模型为基础的设置中,我们展示了这个控制器以线性收敛速度实现,这在现有的 MAML-LQR 工作中改进了次线性速度。与现有的 MAML-LQR 结果相比,我们的理论保证证明了学到的控制器可以高效地适应未见的 LQR 任务。