梯度为基础的 MAML 在 LQR 中的收敛性

Sep, 2023

梯度为基础的 MAML 在 LQR 中的收敛性

Convergence of Gradient-based MAML in LQR

Negin Musavi, Geir E. Dullerud

TL;DR本研究探讨了 Model-agnostic Meta-learning (MAML) 在线性系统二次最优控制（LQR）中的局部收敛特性，同时保持动态系统的稳定性。通过简单的数值结果展示了 MAML 在 LQR 任务中的收敛性。

Abstract

The main objective of this research paper is to investigate the local convergence characteristics of model-agnostic meta-learning (MAML) when applied to linear system quadratic optimal control (→

model-agnostic meta-learning linear system quadratic optimal control local convergence characteristics lqr stability

发现论文，激发创造

元学习线性二次调节器：一种基于策略梯度的模型无关 LQR 的 MAML 方法

在多任务、异构和无模型的情况下，我们研究了学习线性二次调节器（LQR）的问题。我们表征了基于策略梯度的无模型元学习方法（MAML）（Finn et al.，2017）在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR 方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器，直到任务异质性偏差为止。此外，在模型为基础的设置中，我们展示了这个控制器以线性收敛速度实现，这在现有的 MAML-LQR 工作中改进了次线性速度。与现有的 MAML-LQR 结果相比，我们的理论保证证明了学到的控制器可以高效地适应未见的 LQR 任务。

Jan, 2024

关于模型无关元学习的全局最优性

通过一级优化解决每个子任务并通过二级优化确定最优先前信息的模型无关元学习 (MAML) 被证明在非凸元目标上有全局最优性，其与内部目标的函数几何性和函数逼近器的表示能力有关。

Jun, 2020

多步模型无关元学习的理论收敛性

该论文提出了一个新的理论框架，以提供关于 MAML 算法在两种实际感兴趣的目标函数（重新采样情况和有限和情况）下收敛性的保证，并表征了在非凸情况下实现多步 MAML 的计算复杂度和收敛速率，建议内部阶段步长应选择与内部阶段步数 N 成反比来保证 N 步 MAML 有保证的收敛性，从技术上讲，它们开发了处理多步 MAML 的元梯度嵌套结构的新技术。

Feb, 2020

关于基于梯度的模型无关元学习算法的收敛理论

本文研究了一类基于梯度的元学习方法的收敛性，探讨了它们在非凸损失函数下的最佳可达精度和整体复杂度。我们提出了一种名为 Hessian-Free MAML 的新变体算法，为该算法提供了理论保证，并且解答了这些算法在任务和数据集上学习率和批量大小的选择问题。

Aug, 2019

关于模仿学习的全局收敛性：线性二次调节器的案例

该研究探讨了生成对抗模仿学习在线性二次调节器方面的全局收敛性，提出了交替梯度算法解决非凸 - 凹几何形态可能带来的问题，该算法收敛速度为 Q 线性速率并得到全局最优策略和奖励函数，为理解和控制从强化学习和生成对抗学习中产生的非凸 - 凹交替极小最大优化方面的不稳定性迈出了一步。

Jan, 2019

非线性策略优化中学习本地线性模型的威力

本文对于一种学习控制策略进行了系统分析，该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本，我们提出了一种基于本地线性模型的算法，在重要的问题参数上获得了多项式的样本复杂度，并通过合成本地稳定增益，克服了问题时间影响的指数依赖性，我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。

May, 2023

连续时间限制下的元学习

本文研究了模型无关元学习（Model-Agnostic Meta-Learning, MAML）运动动力学的普通微分方程（ODE），提出了一种新的 BI-MAML 训练算法，可以显著减少现有 MAML 训练方法的计算负担，并通过理论分析和实验验证证明其优越性。

Jun, 2020

模型无关元学习算法的泛化：循环和未见任务

本文研究了超模型学习中的 MAML 算法在监督学习问题的推广性质，探讨了训练 MAML 模型的任务和样本数量对其推广误差的影响。我们提出了一种新的稳定性定义，从而捕捉了任务数和每个任务样本数对 MAML 推广误差的作用。

Feb, 2021

多模态模型无关元学习

本文提出了一种基于多模态任务分布的 adaptative meta-learning 算法，并采用该算法来识别各种从多模态分布中采样的任务，以更快速地实现适应。结果表明该算法对于计算机视觉、强化学习和回归等多种任务领域都具有普适性。

Dec, 2018

基于梯度的元学习的可证明保证

本文介绍了基于在线凸优化的元学习问题，并提出了一种元算法，使得流行的基于梯度的元学习和传统的基于正则化的多任务转移方法之间的差距得以弥合。我们的方法是第一个在凸设置下同时满足良好的样本效率保证，并且具有随着任务相似度提高而改善的泛化界限，同时在现代深度学习体系结构和多任务环境下具有可伸缩性的方法。尽管算法很简单，但它匹配了下限，是任何此类参数传输方法在自然任务相似度假设下的性能的常数因子。我们在凸和深度学习设置下的实验验证和演示了我们理论的适用性。

Feb, 2019