乐观元梯度

Jan, 2023

Optimistic Meta-Gradients

Sebastian Flennerhag, Tom Zahavy, Brendan O'Donoghue, Hado van Hasselt, András György...

TL;DR本文探讨了梯度基础元学习和凸优化之间的联系，提出了 Bootstrapped Meta-Gradients 来捕捉元学习中的乐观性，并在单任务设置下证明了收敛速率。

Abstract

We study the connection between gradient-based meta-learning and convex op-timisation. We observe that gradient descent with momentum is a special case of meta-gradients, and building on recent results in optimisation, we prove →

gradient-based meta-learning convex optimization convergence rates bootstrapped meta-gradients optimism

发现论文，激发创造

基于梯度的元学习的可证明保证

本文介绍了基于在线凸优化的元学习问题，并提出了一种元算法，使得流行的基于梯度的元学习和传统的基于正则化的多任务转移方法之间的差距得以弥合。我们的方法是第一个在凸设置下同时满足良好的样本效率保证，并且具有随着任务相似度提高而改善的泛化界限，同时在现代深度学习体系结构和多任务环境下具有可伸缩性的方法。尽管算法很简单，但它匹配了下限，是任何此类参数传输方法在自然任务相似度假设下的性能的常数因子。我们在凸和深度学习设置下的实验验证和演示了我们理论的适用性。

Feb, 2019

MetaGrad: 在线学习中的多个学习率

介绍了 MetaGrad 方法，它是一种自适应方法，能够在多种凸函数子类中实现快速速率，该方法采用了倾斜指数权重主算法，可以同时考虑多个学习率，适用于指数凹和强凸函数，以及各种类型的随机和非随机函数。

Apr, 2016

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

隐式梯度元学习

本文介绍一种名为隐式 MAML 的方法，用于在少量数据下实现基于梯度的元学习，能够解决通过内层优化得到的结果进行求导时的困难，从而优雅地处理多个梯度步骤，实现在少样本下的图像识别精度的提升。

Sep, 2019

自助元学习

本文提出了一种算法来解决元学习中的元优化问题，通过自我教育的方式实现优化及扩展了有效的元学习层数，在 Atari ALE 基准测试中取得了最新的最佳表现，并展示了在多任务元学习中节省了模型训练时间的能力。

Sep, 2021

元值学习：具备学习认知能力的一般性学习框架

在多智能体系统中，基于梯度的学习很困难，LOLA 通过在一步优化中不同化来解决这个问题，我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法，核心是一个称为元 - 价值的函数，它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和，我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。

Jul, 2023

利用学习的方法保证调整步长

本论文在简单问题上给出了学习优化算法的元优化保证，并展示了关于学到的优化器的性质。

Jun, 2020

基于梯度元学习的泛化理解探索

本文研究了神经网络在基于梯度的元学习中的泛化问题，分析了目标景观的各种特性，提出了一种新的正则化方法以增强模型的泛化能力。实验表明，在元训练提供的元解决方案的基础上，通过几步基于梯度的微调适应元训练模型到新任务时，所得到的元测试解决方案变得越来越平坦，损失更低，并且远离元训练解决方案。

Jul, 2019

Omega：乐观 EMA 梯度

本文提出了优化器 Omega 和一种带动量的变化形式，Omega 通过 EMA 历史梯度更新来减轻噪声影响，实验表明，在应用于线性玩家时 Omega 优于乐观梯度法。

Jun, 2023