元学习线性二次调节器：一种基于策略梯度的模型无关 LQR 的 MAML 方法

Jan, 2024

元学习线性二次调节器：一种基于策略梯度的模型无关 LQR 的 MAML 方法

Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for the Model-free LQR

Leonardo F. Toso, Donglin Zhan, James Anderson, Han Wang

TL;DR在多任务、异构和无模型的情况下，我们研究了学习线性二次调节器（LQR）的问题。我们表征了基于策略梯度的无模型元学习方法（MAML）（Finn et al.，2017）在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR 方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器，直到任务异质性偏差为止。此外，在模型为基础的设置中，我们展示了这个控制器以线性收敛速度实现，这在现有的 MAML-LQR 工作中改进了次线性速度。与现有的 MAML-LQR 结果相比，我们的理论保证证明了学到的控制器可以高效地适应未见的 LQR 任务。

Abstract

We investigate the problem of learning linear quadratic regulators (LQR) in a multi-task, heterogeneous, and →

linear quadratic regulators multi-task heterogeneous model-free policy gradient-based model-agnostic meta-learning

发现论文，激发创造

梯度为基础的 MAML 在 LQR 中的收敛性

本研究探讨了 Model-agnostic Meta-learning (MAML) 在线性系统二次最优控制（LQR）中的局部收敛特性，同时保持动态系统的稳定性。通过简单的数值结果展示了 MAML 在 LQR 任务中的收敛性。

Sep, 2023

LQR 元策略估计的 Moreau 包络方法

基于不确定动态系统的有限实现集，我们提出了一种基于 Moreau 包络的代理 LQR 成本方法，以定义一种能够高效适应新实现的元策略，并设计了一种算法来寻找元 LQR 成本函数的近似一阶稳定点。数值结果表明，所提出的方法在新的线性系统实现上优于简单平均控制器。我们还提供了经验证据表明，我们的方法具有比模型无关元学习（MAML）方法更好的样本复杂度。

Mar, 2024

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024

元强化学习

Meta-Q-Learning (MQL) 是一种新的离线策略算法，它建立在三个简单的思想之上：使用过去轨迹的表示作为上下文变量可以使 Q-learning 与最先进的元 RL 算法相竞争；最大化训练任务的平均奖励的多任务目标是元训练 RL 策略的有效方法；从元训练回放缓冲区中获取的过去数据可以通过非策略更新来适应新任务，MQL 借鉴了势估计的思想，从而增加了可用于适应的数据量。实验表明，与元 RL 的最新技术相比，MQL 在标准的连续控制基准测试中表现得更好。

Sep, 2019

关于模仿学习的全局收敛性：线性二次调节器的案例

该研究探讨了生成对抗模仿学习在线性二次调节器方面的全局收敛性，提出了交替梯度算法解决非凸 - 凹几何形态可能带来的问题，该算法收敛速度为 Q 线性速率并得到全局最优策略和奖励函数，为理解和控制从强化学习和生成对抗学习中产生的非凸 - 凹交替极小最大优化方面的不稳定性迈出了一步。

Jan, 2019

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

关于模型无关元学习的全局最优性

通过一级优化解决每个子任务并通过二级优化确定最优先前信息的模型无关元学习 (MAML) 被证明在非凸元目标上有全局最优性，其与内部目标的函数几何性和函数逼近器的表示能力有关。

Jun, 2020

面向策略梯度方法的策略感知模型学习

本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Feb, 2020

非线性策略优化中学习本地线性模型的威力

本文对于一种学习控制策略进行了系统分析，该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本，我们提出了一种基于本地线性模型的算法，在重要的问题参数上获得了多项式的样本复杂度，并通过合成本地稳定增益，克服了问题时间影响的指数依赖性，我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。

May, 2023

多模态模型无关元学习

本文提出了一种基于多模态任务分布的 adaptative meta-learning 算法，并采用该算法来识别各种从多模态分布中采样的任务，以更快速地实现适应。结果表明该算法对于计算机视觉、强化学习和回归等多种任务领域都具有普适性。

Dec, 2018