免细胞潜在探索

Aug, 2022

Cell-Free Latent Go-Explore

Quentin Gallouédec, Emmanuel Dellandréa

TL;DR该论文利用学习到的潜在表示，引入了基于 “Go-Explore” 范例的 “潜在 Go-Explore”(LGE) 方法，该方法将普适应用于强化学习探索任务中，并在多个具有遥远探索难度的环境中展现比当下最佳算法更具鲁棒性和优异性能，例如 Montezuma's Revenge 环境。

Abstract

In this paper, we introduce latent go-explore (LGE), a simple and general approach based on the Go-Explore paradigm for exploration in reinforcement learning (RL). Go-Explore was initially introduced with a stron

latent go-explore reinforcement learning exploration latent representation montezuma's revenge

发现论文，激发创造

Go-Explore：一种解决困难探索问题的新方法

采用记忆、回归与模拟学习等技术结合的算法 Go-Explore 在复杂探索问题上有了显著提高，打破了 Montezuma's Revenge 甚至超越了 Pitfall 的人类高分纪录，为强化学习领域提供了新思路。

Jan, 2019

探索前进：在深度强化学习中利用探索进行泛化

提供一种新的方法 Explore-Go，通过增加代理训练的状态数目，从而有效地增加代理的起始状态分布，以提高强化学习中的泛化性能。

Jun, 2024

先 Go，后 Post-Exploration：后探索在内在动机中的益处

该论文研究了强化学习领域中的一种新方法 “Go-Explore”，通过后探索 (post-exploration) 的方式探明未知状态，通过试验在 MiniGrid 和 Mujoco 环境下得出结论，该方法具有通用性，易于实现，RL 研究人员可考虑在 intrinsically motivated goal exploration process 中采用 post-exploration。

Dec, 2022

针对居住能源管理的 Go-Explore 算法

利用 Go-Explore 算法来解决居民能源管理问题中的节约成本任务，并与众所周知的强化学习算法相比，取得了高达 19.84% 的改进。

Jan, 2024

文本环境中的强化学习智能体的语言引导探索

通过使用预训练语言模型（称为 GUIDE）为强化学习代理（称为 EXPLORER）提供决策级别的指导，我们引入了 Language Guided Exploration（LGE）框架，并观察到 LGE 在具有挑战性的文本环境中显著优于传统强化学习代理、行为克隆和文本决策转换等先进方法。

Mar, 2024

何时出发，何时探索：后探索对内在动机的益处

本文对 Go-Explore 论文中未解决的问题进行了系统研究，通过对一系列 MiniGrid 环境的实验发现，采用后探索策略能够显著提高强化学习的性能，并利用新的自适应方法进一步提高了效果，证明了自适应后探索是强化学习探索研究的一个有前途的方向。

Mar, 2022

先回报，后探索

Go-Explore 算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则，直接解决了探索中的 “detach” 和 “derailment” 问题，并在所有难探索游戏上超越了现有技术，并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。

Apr, 2020

可转移的图探索学习

该研究考虑了人工智能中尚未开发过的环境在探索方面的问题，并提出了一种从环境分布中学习策略的方法，将其作为强化学习任务来处理，以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明，该方法在空间地图探索和领域特定程序和现实世界移动应用的覆盖率导向软件测试方面表现出色。

Oct, 2019

生成式探索与利用

本文提出了一种新方法 Generative Exploration and Exploitation（GENE），通过自动生成初始状态鼓励代理探索环境并利用接收到的奖励信号，可以自适应地在探索和利用之间进行权衡并与任何强化学习算法结合使用，实证表明 GENE 在三个只有二进制奖励的任务中明显优于现有方法，并验证了渐进式探索和自动反转的出现。

Apr, 2019

生成对抗探索强化学习

本文提出一种新方法，即生成对抗性探索 (GAEX)，来通过引入来自生成对抗网络的内在奖励，鼓励强化学习中的探索，以帮助鉴别是否访问了新颖的状态，而不是像以前的工作一样仅依赖于启发式规则或距离度量。实验结果表明，在 DQN 上应用 GAEX，可以在不进一步调整复杂的学习算法的情况下，在具有挑战性的探索问题中实现令人信服的性能提升，包括游戏 Venture、Montezuma's Revenge 和 Super Mario Bros。据我们所知，这是首次使用 GAN 解决强化学习中的探索问题。

Jan, 2022