结构化探索策略的元强化学习

Feb, 2018

Meta-Reinforcement Learning of Structured Exploration Strategies

Abhishek Gupta, Russell Mendonca, YuXuan Liu, Pieter Abbeel, Sergey Levine

TL;DR本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Abstract

exploration is a fundamental challenge in reinforcement learning (RL). Many of the current exploration methods for deep RL use task-agnost

reinforcement learning prior tasks exploration model agnostic exploration with structured noise meta-rl

发现论文，激发创造

MAME：模型无关元探索

本论文提出了一种在元强化学习中有效实现探索策略的方法，即通过建立一个单独的探索策略，通过自监督和监督学习目标来实现适应，相较于现有的方法可以更加灵活和高效地训练策略，并在实验中表现出更卓越的性能。

Nov, 2019

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

元强化学习的探索与利用解耦，无需牺牲

本文提出一种基于策略梯度优化的元强化学习方法，该方法不但可以在学习新任务时快速利用之前相关任务的经验，还能自动识别任务相关信息来避免局部最优解。实验结果表明，该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。

Aug, 2020

先探索，再利用：元学习智能探索

提出了一种新的元强化学习框架（First-Explore），它有两个策略：一个策略仅学习探索，另一个策略仅学习开发，该方法避免了尝试同时进行探索和开发的冲突，解决了普通 RL 和元 RL 方法中学习智能探索的核心障碍，提高了样本效率，并在需要牺牲奖励的领域中优于传统 RL 和元 RL 方法，从而可以学习人类级别的探索，解决具有挑战性的未知难探索领域。

Jul, 2023

有趣的对象，好奇的智能体：学习与任务无关的探索

本研究提出了一种新的任务无关探索方法，将学习到的策略转移到不同的环境下，通过评估基线策略和探索组件，提高在多个测试环境下的一致性探索。

Nov, 2021

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

多智能体深度强化学习的协作探索

本文提出协作多智能体探索（CMAE）方法，通过归一化熵技术从多个状态空间中选择目标，实现智能体之间探索的协调性，取得了多项任务的良好表现。

Jul, 2021

从分散的元强化学习中出现集体开放性探索

我们在开放式任务分布上通过元强化学习以及分散训练，探究了集体探索策略的产生，发现去中心化的智能体在对抗从五种不同类型任务中抽取出的多个子任务动态组成的大量任务树时，表现出了强大的泛化能力，能够解决训练过程中从未遇到的新任务，并且这种集体探索策略的学习在开放式任务设置下得以扩展，让智能体能够解决比训练过程中多两倍深度的任务树。

Nov, 2023