MAME：模型无关元探索

Nov, 2019

MAME : Model-Agnostic Meta-Exploration

Swaminathan Gurumurthy, Sumit Kumar, Katia Sycara

TL;DR本论文提出了一种在元强化学习中有效实现探索策略的方法，即通过建立一个单独的探索策略，通过自监督和监督学习目标来实现适应，相较于现有的方法可以更加灵活和高效地训练策略，并在实验中表现出更卓越的性能。

Abstract

meta-reinforcement learning approaches aim to develop learning procedures that can adapt quickly to a distribution of tasks with the help of a few examples. Developing efficient exploration strategies capable of

meta-reinforcement learning exploration strategies adaptation self-supervised learning supervised learning

发现论文，激发创造

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

元强化学习的探索与利用解耦，无需牺牲

本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Aug, 2020

无关模型的元学习用于深度网络的快速适应

本文提出了一种模型无关的元学习算法，通过少量的训练样本，使用梯度下降算法来训练模型的参数，实现了对新学习任务的快速调整和学习，导致在少量图像分类、回归和神经网络政策优化方面表现出最先进的性能。

Mar, 2017

MAMBA: 一种适用于元强化学习的有效世界模型方法

基于现有先进模型和元学习方法，本文提出了一种新的基于模型的元强化学习方法，通过实验证明了我们方法在常见元强化学习基准领域上能够获得更高的回报，并且具有更好的样本利用效率（高达 15 倍），同时需要很少的超参数调整。此外，我们还在更具挑战性的、高维领域验证了我们的方法，为实现真实世界中的泛化智能体迈出了一步。

Mar, 2024

多模态模型无关元学习

本文提出了一种基于多模态任务分布的 adaptative meta-learning 算法，并采用该算法来识别各种从多模态分布中采样的任务，以更快速地实现适应。结果表明该算法对于计算机视觉、强化学习和回归等多种任务领域都具有普适性。

Dec, 2018

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024

通过任务感知调节的多模态模型无关元学习

本文介绍了一种增强的 MAML 框架，该框架能够在多模态任务分布中识别任务模式并通过梯度更新快速适应，从而更有效地进行元学习，同时在回归、图像分类和强化学习等多种领域中进行了实验验证。

Oct, 2019

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023

基于模型的对抗元强化学习

本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使用最大化次优性策略的对抗任务找到最优策略，以提高元强化学习算法在任务分布变化下的泛化能力和性能效率，试验表明该算法具有优异性能。

Jun, 2020