元 - 强化学习任务的大规模参数化空间

Feb, 2023

元 - 强化学习任务的大规模参数化空间

A large parametrized space of meta-reinforcement learning tasks

Thomas Miconi

TL;DR利用参数化空间随机生成简单元元强化学习任务，覆盖许多已知的任务，并能对二维拓扑任务进行扩展。作者描述了几个随机生成的元元强化学习任务，并讨论相关问题。

Abstract

We describe a parametrized space for simple meta-reinforcement-learning (meta-RL) tasks with arbitrary stimuli. The parametrization allows us to randomly generate an arbitrary number of novel →

meta-reinforcement-learning parametrized space simple meta-learning tasks novel tasks random generation

发现论文，激发创造

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

元学习参数化技能

本研究提出了一种新的参数化技能学习算法，此算法可以学习可转移的参数化技能并将其综合到新的行动空间中，从而支持长视深远任务的高效学习。经实证表明，这种方法可以使代理人解决一组困难的长视深远任务。

Jun, 2022

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

MGHRL：层次强化学习的元目标生成

本文提出了一种新的元强化学习算法，称为 Meta Goal-generation for Hierarchical RL (MGHRL)，通过学习给定过去经验的高层次元策略来生成子目标，而将如何实现子目标留给独立的强化学习子任务来完成，实验结果表明，该算法可以更有效地从过去的经验进行元学习。

Sep, 2019

有限训练任务下的元强化学习 —— 一种密度估计方法

本研究探讨使用密度估计技术，直接学习任务分布并在其上训练策略以最大化回报，从而实现元强化学习的有效性问题，结果表明，与基于历史策略的学习方法相比，我们的方法具有更好的效果，特别是在任务分布存在低维流形的情况下。

Jun, 2022

任务嵌入与共享策略的元强化学习

本研究提出了一种 meta-RL 方法，通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力，使用任务编码器生成任务嵌入并在所有任务之间共享策略，实现在训练和新任务上的更好学习能力和更高回报率。

May, 2019

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023

基于模型的对抗元强化学习

本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使用最大化次优性策略的对抗任务找到最优策略，以提高元强化学习算法在任务分布变化下的泛化能力和性能效率，试验表明该算法具有优异性能。

Jun, 2020

约束元不可知强化学习

Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel approach, Constraint Model Agnostic Meta Learning (C-MAML), merges meta learning with constrained optimization to enable rapid and efficient task adaptation, demonstrating effectiveness in simulated locomotion with wheeled robot tasks of varying complexity.

Jun, 2024