元强化学习的探索与利用解耦，无需牺牲

ICMLAug, 2020

元强化学习的探索与利用解耦，无需牺牲

Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices

Evan Zheran Liu, Aditi Raghunathan, Percy Liang, Chelsea Finn

TL;DR本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Abstract

The goal of meta-reinforcement learning (meta-RL) is to build agents that can quickly learn new tasks by leveraging prior experience on related tasks. Learning a new task often requires both exploring to gather task-relevant information and exploiting this information to solve the task

meta-reinforcement learning exploration exploitation optimal task-relevant information

发现论文，激发创造

先探索，再利用：元学习智能探索

提出了一种新的元强化学习框架（First-Explore），它有两个策略：一个策略仅学习探索，另一个策略仅学习开发，该方法避免了尝试同时进行探索和开发的冲突，解决了普通 RL 和元 RL 方法中学习智能探索的核心障碍，提高了样本效率，并在需要牺牲奖励的领域中优于传统 RL 和元 RL 方法，从而可以学习人类级别的探索，解决具有挑战性的未知难探索领域。

Jul, 2023

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

MAME：模型无关元探索

本论文提出了一种在元强化学习中有效实现探索策略的方法，即通过建立一个单独的探索策略，通过自监督和监督学习目标来实现适应，相较于现有的方法可以更加灵活和高效地训练策略，并在实验中表现出更卓越的性能。

Nov, 2019

元强化学习中学习探索的一些考虑

本文探讨元强化学习中的探索问题，提出了 E-MAML 和 E-RL^2 两种算法，并在 ` 疯狂世界 ' 和一组迷宫环境中展示了更好的性能表现。

Mar, 2018

任务嵌入与共享策略的元强化学习

本研究提出了一种 meta-RL 方法，通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力，使用任务编码器生成任务嵌入并在所有任务之间共享策略，实现在训练和新任务上的更好学习能力和更高回报率。

May, 2019

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

强化学习中探索在任务迁移中的作用

探索利用平衡是强化学习领域中一个著名且被广泛研究的问题，该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。

Oct, 2022

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019