梯度为基础的 MAML 在 LQR 中的收敛性
在多任务、异构和无模型的情况下,我们研究了学习线性二次调节器(LQR)的问题。我们表征了基于策略梯度的无模型元学习方法(MAML)(Finn et al.,2017)在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR 方法在模型为基础和无模型设置下产生了一个接近每个任务特定最优控制器的稳定控制器,直到任务异质性偏差为止。此外,在模型为基础的设置中,我们展示了这个控制器以线性收敛速度实现,这在现有的 MAML-LQR 工作中改进了次线性速度。与现有的 MAML-LQR 结果相比,我们的理论保证证明了学到的控制器可以高效地适应未见的 LQR 任务。
Jan, 2024
通过一级优化解决每个子任务并通过二级优化确定最优先前信息的模型无关元学习 (MAML) 被证明在非凸元目标上有全局最优性,其与内部目标的函数几何性和函数逼近器的表示能力有关。
Jun, 2020
该论文提出了一个新的理论框架,以提供关于 MAML 算法在两种实际感兴趣的目标函数(重新采样情况和有限和情况)下收敛性的保证,并表征了在非凸情况下实现多步 MAML 的计算复杂度和收敛速率,建议内部阶段步长应选择与内部阶段步数 N 成反比来保证 N 步 MAML 有保证的收敛性,从技术上讲,它们开发了处理多步 MAML 的元梯度嵌套结构的新技术。
Feb, 2020
本文研究了一类基于梯度的元学习方法的收敛性,探讨了它们在非凸损失函数下的最佳可达精度和整体复杂度。我们提出了一种名为 Hessian-Free MAML 的新变体算法,为该算法提供了理论保证,并且解答了这些算法在任务和数据集上学习率和批量大小的选择问题。
Aug, 2019
该研究探讨了生成对抗模仿学习在线性二次调节器方面的全局收敛性,提出了交替梯度算法解决非凸 - 凹几何形态可能带来的问题,该算法收敛速度为 Q 线性速率并得到全局最优策略和奖励函数,为理解和控制从强化学习和生成对抗学习中产生的非凸 - 凹交替极小最大优化方面的不稳定性迈出了一步。
Jan, 2019
本文对于一种学习控制策略进行了系统分析,该策略主要包括估计系统动态模型和应用轨迹优化算法来降低目标成本,我们提出了一种基于本地线性模型的算法,在重要的问题参数上获得了多项式的样本复杂度,并通过合成本地稳定增益,克服了问题时间影响的指数依赖性,我们的实验结果也验证了该算法的有效性并与自然深度学习基线进行了比较。
May, 2023
本文研究了模型无关元学习(Model-Agnostic Meta-Learning, MAML)运动动力学的普通微分方程(ODE),提出了一种新的 BI-MAML 训练算法,可以显著减少现有 MAML 训练方法的计算负担,并通过理论分析和实验验证证明其优越性。
Jun, 2020
本文研究了超模型学习中的 MAML 算法在监督学习问题的推广性质,探讨了训练 MAML 模型的任务和样本数量对其推广误差的影响。我们提出了一种新的稳定性定义,从而捕捉了任务数和每个任务样本数对 MAML 推广误差的作用。
Feb, 2021
本文提出了一种基于多模态任务分布的 adaptative meta-learning 算法,并采用该算法来识别各种从多模态分布中采样的任务,以更快速地实现适应。结果表明该算法对于计算机视觉、强化学习和回归等多种任务领域都具有普适性。
Dec, 2018
本文介绍了基于在线凸优化的元学习问题,并提出了一种元算法,使得流行的基于梯度的元学习和传统的基于正则化的多任务转移方法之间的差距得以弥合。我们的方法是第一个在凸设置下同时满足良好的样本效率保证,并且具有随着任务相似度提高而改善的泛化界限,同时在现代深度学习体系结构和多任务环境下具有可伸缩性的方法。尽管算法很简单,但它匹配了下限,是任何此类参数传输方法在自然任务相似度假设下的性能的常数因子。我们在凸和深度学习设置下的实验验证和演示了我们理论的适用性。
Feb, 2019