先探索，再利用：元学习智能探索

Jul, 2023

先探索，再利用：元学习智能探索

First-Explore, then Exploit: Meta-Learning Intelligent Exploration

Ben Norman, Jeff Clune

TL;DR提出了一种新的元强化学习框架（First-Explore），它有两个策略：一个策略仅学习探索，另一个策略仅学习开发，该方法避免了尝试同时进行探索和开发的冲突，解决了普通 RL 和元 RL 方法中学习智能探索的核心障碍，提高了样本效率，并在需要牺牲奖励的领域中优于传统 RL 和元 RL 方法，从而可以学习人类级别的探索，解决具有挑战性的未知难探索领域。

Abstract

Standard reinforcement learning (RL) agents never intelligently explore like a human (i.e. by taking into account complex domain priors and previous explorations). Even the most basic intelligent exploration stra

reinforcement learning exploration meta-learning sample efficiency intelligent exploration

发现论文，激发创造

元强化学习的探索与利用解耦，无需牺牲

本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Aug, 2020

元强化学习中学习探索的一些考虑

本文探讨元强化学习中的探索问题，提出了 E-MAML 和 E-RL^2 两种算法，并在 ` 疯狂世界 ' 和一组迷宫环境中展示了更好的性能表现。

Mar, 2018

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

Go-Explore：一种解决困难探索问题的新方法

采用记忆、回归与模拟学习等技术结合的算法 Go-Explore 在复杂探索问题上有了显著提高，打破了 Montezuma's Revenge 甚至超越了 Pitfall 的人类高分纪录，为强化学习领域提供了新思路。

Jan, 2019

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

先回报，后探索

Go-Explore 算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则，直接解决了探索中的 “detach” 和 “derailment” 问题，并在所有难探索游戏上超越了现有技术，并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。

Apr, 2020

MAME：模型无关元探索

本论文提出了一种在元强化学习中有效实现探索策略的方法，即通过建立一个单独的探索策略，通过自监督和监督学习目标来实现适应，相较于现有的方法可以更加灵活和高效地训练策略，并在实验中表现出更卓越的性能。

Nov, 2019

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

针对居住能源管理的 Go-Explore 算法

利用 Go-Explore 算法来解决居民能源管理问题中的节约成本任务，并与众所周知的强化学习算法相比，取得了高达 19.84% 的改进。

Jan, 2024

基于选项框架的多模式探索的自主非单态智能体

探索如何自主确定一个多模态探索非单块行为的选项框架，以提高强化学习中的表现。

May, 2023