元学习共享层级

Oct, 2017

Meta Learning Shared Hierarchies

Kevin Frans, Jonathan Ho, Xi Chen, Pieter Abbeel, John Schulman

TL;DR本文提出了一种元学习方法，通过使用共享的基元，改进对未见过任务样本的样本效率，并提供了衡量其效果的具体指标；同时，通过重置任务特定策略并使用任何现成的强化学习方法，我们实现了这一方法的端到端解决方案，成功地在用四条腿的机器人互动的迷宫分布中发现了有意义的运动原语，并且将原语应用于解决长时间尺度的稀疏奖励障碍航线问题，从而使三维人形机器人能够稳健地行走和爬行。

Abstract

We develop a metalearning approach for learning hierarchically structured policies, improving sample efficiency on unseen tasks through the use of shared primitives---policies that are executed for large numbers of timesteps. Specifically, a set of primitives are shared within a distri

metalearning hierarchical policies shared primitives off-the-shelf reinforcement learning motor primitives

发现论文，激发创造

任务嵌入与共享策略的元强化学习

本研究提出了一种 meta-RL 方法，通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力，使用任务编码器生成任务嵌入并在所有任务之间共享策略，实现在训练和新任务上的更好学习能力和更高回报率。

May, 2019

元学习参数化技能

本研究提出了一种新的参数化技能学习算法，此算法可以学习可转移的参数化技能并将其综合到新的行动空间中，从而支持长视深远任务的高效学习。经实证表明，这种方法可以使代理人解决一组困难的长视深远任务。

Jun, 2022

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019

分层结构元学习

本文提出了一种基于梯度的分层结构的元学习方法，该方法通过任务聚类结构以及自适应知识传递来解决元学习中任务不确定性和异质性问题，并在玩具回归和少样本图像分类问题中取得了最优表现。

May, 2019

基于技能的元强化学习

本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法，以实现复杂、长期目标的快速解决，可以显著提高样本效率并减少与环境的交互次数。

Apr, 2022

基于层级专家网络的元学习

该论文提出了一种信息论的元学习模型，通过优化划分学习任务，使得专业的决策者解决子问题，从而达到高效的适应新任务的效果，在图像分类、回归和强化学习三个元学习领域进行验证。

Oct, 2019

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

带潜在变量高斯过程的元强化学习

利用层级潜变量模型，自动推断任务之间的关系并应用于模型强化学习中，从而实现在小规模数据集上的元学习，有效提高数据利用率，解决新任务的平均交互时间缩短高达 60%。

Mar, 2018

MGHRL：层次强化学习的元目标生成

本文提出了一种新的元强化学习算法，称为 Meta Goal-generation for Hierarchical RL (MGHRL)，通过学习给定过去经验的高层次元策略来生成子目标，而将如何实现子目标留给独立的强化学习子任务来完成，实验结果表明，该算法可以更有效地从过去的经验进行元学习。

Sep, 2019

分层变压器是高效的元强化学习者

Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach that improves learning efficiency and generalization capabilities, outperforming the previous state-of-the-art algorithm in various tasks.

Feb, 2024