基于元学习的深度在线学习:模型强化学习中的持续自适应
本研究旨在提出一种模型基础的强化学习元学习方法,以在明显减少样本数量的情况下实现机器人在线适应新任务,并证明该方法在模拟和实际机器人中的有效性。
Mar, 2018
在研究中,提出了一个更普遍的场景 OSAKA,即代理人必须快速解决新的(分布外)任务,并快速回忆起以前的任务。作者提出了 Continual-MAML 作为强有力的基准线,并在实验中证明,它比其他方法更适合新情况。
Mar, 2020
本文提出了一种名为深度元强化学习的方法,该方法使用递归网络,在一个强化学习算法上进行训练,但其递归动态实现第二个、完全分离的强化学习过程,通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。
Nov, 2016
研究了如何在动态变化和对抗性场景中通过元学习算法实现连续自适应,并证明元学习能够在少样本情况下实现比反应式基线更高效的自适应;同时设计了一个新的多智能体竞争环境 RoboSumo 并定义了迭代自适应游戏以对各种连续自适应策略进行测试。通过对学习和竞争的一组代理人的实验表明,元学习是最适合的。
Oct, 2017
本文提出了一种称为 OML 的目标,其直接最小化灾难性干扰,通过学习在持续学习的在线更新过程中加速未来学习和对遗忘有弹性的表示,我们表明可以学习到更有效的在线更新的自然稀疏表示,并且该算法是现有持续学习策略,如 MER 和 GEM 的有效补充,最后,我们证明了通过 OML 学习的基本在线更新策略与基于重演的持续学习方法具有相同的竞争力。
May, 2019
该论文提出了一种名为 MERLIN 的元学习方法,通过元分布 p(ψ|t)的学习和巩固,解决了神经网络在在线持续学习过程中忘记之前知识的问题,实验证明该方法优于现有的基线模型。
Oct, 2020
在当前深度学习时代,为了在训练神经网络时使用随机梯度下降处理非平稳流数据时减轻遗忘现象,我们采用元学习范式来结合神经网络的强表示能力与简单统计模型对遗忘现象的抵抗能力,在我们的新颖元持续学习框架中,持续学习仅在统计模型中进行,而神经网络在原始数据和统计模型之间进行元学习,由于神经网络在持续学习过程中保持不变,它们免受遗忘现象的影响。该方法不仅实现了显著提高的性能,而且具有出色的可伸缩性,由于我们的方法与领域和模型无关,因此可以应用于各种问题,并与现有模型架构轻松集成。
May, 2024
提出了一种灵感来自人脑神经调节过程的元学习算法 —— 一种神经调节的元学习算法(ANML),可以在不会忘记先前知识的情况下,领会许多顺序有序的任务,通过其良好的选择功能来启用上下文依赖性的选 择性激活,可以在一个规模上进行连续学习,获得业界最优秀的连续学习表现。
Feb, 2020