在线元学习

ICMLFeb, 2019

Online Meta-Learning

Chelsea Finn, Aravind Rajeswaran, Sham Kakade, Sergey Levine

TL;DR该研究提出了一种综合了元学习和在线学习范式的在线元学习模型，运用改进后的 MAML 算法，实现连续终身学习，实验结果表明该算法明显优于传统的在线学习方法。

Abstract

A central capability of intelligent systems is the ability to continuously build upon previous experiences to speed up and enhance learning of new tasks. Two distinct research paradigms have studied this question. meta-learning views this problem as learning a prior over model paramete

meta-learning online learning continual lifelong learning regret-based learning maml algorithm

发现论文，激发创造

在线快速适应和知识积累：一种新的连续学习方法

在研究中，提出了一个更普遍的场景 OSAKA，即代理人必须快速解决新的（分布外）任务，并快速回忆起以前的任务。作者提出了 Continual-MAML 作为强有力的基准线，并在实验中证明，它比其他方法更适合新情况。

Mar, 2020

La-MAML: 前瞻元学习用于连续学习

本文提出了 Look-ahead MAML 算法及其在在线连续学习中的应用，通过调整元学习更新中每个参数的学习率实现更灵活、高效的控制灾难性遗忘，并在实际视觉分类任务中取得了优异的性能。

Jul, 2020

基于元学习的深度在线学习：模型强化学习中的持续自适应

本文旨在开发一种方法，从传入的数据流中使用深度神经网络模型进行连续的在线学习，使用随机梯度下降算法来更新模型参数，并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习，以适应预测模型关键控制任务中的连续快速自适应。

Dec, 2018

在线结构化元学习

提出了一种在线结构化元学习（OSML）框架，该框架通过元分层图形式显式解开元学习器，通过不同的知识块构建元知识路径，从而使模型能够快速适应新任务并吸收新知识。通过在三个数据集上的实验，证明了该框架在同质性和异质性任务上的有效性和可解释性。

Oct, 2020

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019

公平感知的在线元学习

提出了一种新的在线元学习算法 FFML, 该算法能够在保证分类准确性的同时，学习与公平相连的模型参数。通过在三个真实世界数据集上进行实验，得到了具有显著优越性能的结果。

Aug, 2021

适应性公平感知在线元学习在变化环境下的应用

本文提出了一种针对不断变化的环境的公平在线学习框架 FairSAOML，通过添加长期公平性约束来构建新的遗憾度量 FairSAR 和新的自适应公平在线元学习算法，提高分布不一样时的性能，同时对累积公平性约束和损失遗憾度提供了亚线性的理论上限，实验结果表明本文提出的算法在不同的数据集和环境中均优于当前最佳的在线学习算法。

May, 2022

Alpha MAML：自适应模型无关元学习

本研究提出了 Alpha MAML 扩展算法来引入一种在线超参数适应方案，以消除 MAML 训练超参数调整的需要并提高其稳定性，实验结果表明其对于 Omniglot 数据库的效果有显著的提升。

May, 2019

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

具有公平意识的动态环境响应型在线元学习

通过引入长期公平性约束到适应性损失后悔框架中，我们在不断变化的环境中解决了公平感知在线学习挑战，并提出了一种独特的后悔度量 FairSAR。此外，为了确定每个时间步的最优模型参数，我们引入了一种创新的自适应公平感知在线元学习算法 FairSAOML，该算法通过有效管理偏差控制和模型准确性来适应动态环境。该问题被构建为双层凸凹优化，考虑了模型的准确性和公平性属性，理论分析得出了损失后悔和公平性约束累积违规的次线性上界。我们在动态环境中的各种真实数据集上的实验评估表明，我们提出的 FairSAOML 算法始终优于基于最先进在线学习方法的替代方法。

Feb, 2024