基于元学习的深度在线学习：模型强化学习中的持续自适应

Dec, 2018

基于元学习的深度在线学习：模型强化学习中的持续自适应

Deep Online Learning via Meta-Learning: Continual Adaptation for Model-Based RL

Anusha Nagabandi, Chelsea Finn, Sergey Levine

TL;DR本文旨在开发一种方法，从传入的数据流中使用深度神经网络模型进行连续的在线学习，使用随机梯度下降算法来更新模型参数，并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习，以适应预测模型关键控制任务中的连续快速自适应。

Abstract

Humans and animals can learn complex predictive models that allow them to accurately and reliably reason about real-world phenomena, and they can adapt such models extremely quickly in the face of unexpected changes. Deep neural network models allow us to represent very complex functions, but lack this capacity for rapid online →

continual online learning deep neural network models model-based reinforcement learning adaptation non-stationary task distributions

发现论文，激发创造

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

在线快速适应和知识积累：一种新的连续学习方法

在研究中，提出了一个更普遍的场景 OSAKA，即代理人必须快速解决新的（分布外）任务，并快速回忆起以前的任务。作者提出了 Continual-MAML 作为强有力的基准线，并在实验中证明，它比其他方法更适合新情况。

Mar, 2020

当元学习遇上在线和持续学习：一项综述

通过提供一份综合调查报告，有组织地使用一致的术语和形式描述，本文旨在促进这个有前景的研究领域的进一步发展。

Nov, 2023

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

在线元学习

该研究提出了一种综合了元学习和在线学习范式的在线元学习模型，运用改进后的 MAML 算法，实现连续终身学习，实验结果表明该算法明显优于传统的在线学习方法。

Feb, 2019

非静态且竞争环境中的元学习连续适应

研究了如何在动态变化和对抗性场景中通过元学习算法实现连续自适应，并证明元学习能够在少样本情况下实现比反应式基线更高效的自适应；同时设计了一个新的多智能体竞争环境 RoboSumo 并定义了迭代自适应游戏以对各种连续自适应策略进行测试。通过对学习和竞争的一组代理人的实验表明，元学习是最适合的。

Oct, 2017

元学习表征用于连续学习

本文提出了一种称为 OML 的目标，其直接最小化灾难性干扰，通过学习在持续学习的在线更新过程中加速未来学习和对遗忘有弹性的表示，我们表明可以学习到更有效的在线更新的自然稀疏表示，并且该算法是现有持续学习策略，如 MER 和 GEM 的有效补充，最后，我们证明了通过 OML 学习的基本在线更新策略与基于重演的持续学习方法具有相同的竞争力。

May, 2019

持续学习的元整合

该论文提出了一种名为 MERLIN 的元学习方法，通过元分布 p（ψ|t）的学习和巩固，解决了神经网络在在线持续学习过程中忘记之前知识的问题，实验证明该方法优于现有的基线模型。

Oct, 2020

学习贝叶斯原理的持续学习

在当前深度学习时代，为了在训练神经网络时使用随机梯度下降处理非平稳流数据时减轻遗忘现象，我们采用元学习范式来结合神经网络的强表示能力与简单统计模型对遗忘现象的抵抗能力，在我们的新颖元持续学习框架中，持续学习仅在统计模型中进行，而神经网络在原始数据和统计模型之间进行元学习，由于神经网络在持续学习过程中保持不变，它们免受遗忘现象的影响。该方法不仅实现了显著提高的性能，而且具有出色的可伸缩性，由于我们的方法与领域和模型无关，因此可以应用于各种问题，并与现有模型架构轻松集成。

May, 2024

持续学习的学习

提出了一种灵感来自人脑神经调节过程的元学习算法 —— 一种神经调节的元学习算法（ANML)，可以在不会忘记先前知识的情况下，领会许多顺序有序的任务，通过其良好的选择功能来启用上下文依赖性的选择性激活，可以在一个规模上进行连续学习，获得业界最优秀的连续学习表现。

Feb, 2020