非静态且竞争环境中的元学习连续适应

ICLROct, 2017

非静态且竞争环境中的元学习连续适应

Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments

Maruan Al-Shedivat, Trapit Bansal, Yuri Burda, Ilya Sutskever, Igor Mordatch...

TL;DR研究了如何在动态变化和对抗性场景中通过元学习算法实现连续自适应，并证明元学习能够在少样本情况下实现比反应式基线更高效的自适应；同时设计了一个新的多智能体竞争环境 RoboSumo 并定义了迭代自适应游戏以对各种连续自适应策略进行测试。通过对学习和竞争的一组代理人的实验表明，元学习是最适合的。

Abstract

Ability to continuously learn and adapt from limited experience in nonstationary environments is an important milestone on the path towards general intelligence. In this paper, we cast the problem of continuous adaptation into the learning-to-learn framework. We develop a simple gradie

continuous adaptation learning-to-learn meta-learning multi-agent competition efficiency

发现论文，激发创造

在线快速适应和知识积累：一种新的连续学习方法

在研究中，提出了一个更普遍的场景 OSAKA，即代理人必须快速解决新的（分布外）任务，并快速回忆起以前的任务。作者提出了 Continual-MAML 作为强有力的基准线，并在实验中证明，它比其他方法更适合新情况。

Mar, 2020

基于元学习的深度在线学习：模型强化学习中的持续自适应

本文旨在开发一种方法，从传入的数据流中使用深度神经网络模型进行连续的在线学习，使用随机梯度下降算法来更新模型参数，并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习，以适应预测模型关键控制任务中的连续快速自适应。

Dec, 2018

基于元学习的任务无关持续学习

本文提出了一个框架，用于解决神经网络在数据分布不稳定时的忘记问题，该框架结合了元学习和持续学习技术的优点，避免了对任务边界的先验知识，并重点关注了如何更快地恢复性能。在监督学习情境下，我们展示了该框架的应用和效果。

Jun, 2019

通过最大化转移和最小化干扰学习不遗忘的能力

通过 Meta-Experience Replay 算法，在经验回放的基础上进行基于元学习的优化，实现了对未来渐变更少的干扰和更多的知识迁移。在多个领域的实验中，该方法优于目前的基准算法。

Oct, 2018

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

元学习最近进展的综述和调查

该论文回顾了元学习的概念和应用，其与深度学习的不同之处在于其能够适应于少量高维数据集，可以用于模型自适应，可不断自我完善实现高度自主的人工智能。元学习不断发展创新，不同的发展方法已有不同的应用和研究方向，进一步拓展了机器学习的应用领域。

Apr, 2020

无任务的连续元学习

本文提出了一种利用可微贝叶斯变点检测方案的元学习方法，称之为 MOCA，使得元学习算法可以应用于不需要对数据进行离散任务分割的情况，我们在非线性元回归基准测试以及两个元图像分类基准测试中演示了这种方法的实用性。

Dec, 2019

从少量且带有噪声的数据中快速持续学习

本文研究神经网络存在的遗忘问题以及连续学习的解决方案，通过重放机制和元学习的结合，发现引入元学习可以解决传统重放机制在每个任务分配的内存有限时容易导致失效的问题，并在保证学习效率和准确性方面具有优势。

Mar, 2021

多智能体强化学习中的学习学习策略梯度算法

本研究提出了一种新的元多智能体策略梯度定理，该定理直接考虑到多智能体学习环境中固有的非稳态策略动态，并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中，我们的方法能够在全谱的混合激励、竞争和合作领域中比基线方法更有效地适应学习新的代理。

Oct, 2020

通过进化元学习快速适应的腿式机器人

本文提出了一种适用于机器人的新的元学习方法，结合了基于演化策略的元学习和更具噪声容忍度的 Batch Hill-Climbing 适应算子，显著提高了机器人在高噪声环境下的动态变化适应能力。在测试时，我们的方法比基于梯度的方法性能更好，使机器人能够在不到 3 分钟的实际数据基础上适应变化。

Mar, 2020