A Simple Approach for Exploration in Procedurally-Generated Environments: Episode Ranking

ICLRJan, 2021

A Simple Approach for Exploration in Procedurally-Generated Environments: Episode Ranking

Rank the Episodes: A Simple Approach for Exploration in Procedurally-Generated Environments

Daochen Zha, Wenye Ma, Lei Yuan, Xia Hu, Ji Liu

TL;DRRAPID 是为了针对面向过程的生成环境重复性不高的情况，适用于强化学习的全集探索评估方法。我们的实验显示，RAPID 在提高样本效率和最终性能方面，显著优于当前最先进的基于内部奖励的策略。

Abstract

exploration under sparse reward is a long-standing challenge of model-free reinforcement learning. The state-of-the-art methods address this challenge by introducing →

reinforcement learning exploration intrinsic rewards procedurally-generated environments mujoco

发现论文，激发创造

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

信息内容探索

稀疏奖励环境对于强化学习代理是具有挑战性的，本文提出了一种新的内在奖励，系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖，通过与其他探索性内在奖励技术（即好奇心驱动学习和随机网络蒸馏）进行比较，证明了该信息理论奖励具有高效探索，其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后，我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法，提高了样本效率并推广到连续状态空间。

Oct, 2023

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019

通过椭圆周期性奖励进行探索

研究了强化学习（RL）方法在探索复杂环境时的有效性，并引入通过椭圆形周期性奖励探索方法（E3B）以扩展计数周期性奖励至连续状态空间，使用反向动力学模型学习嵌入以捕获环境可控方面，可扩展到高维像素感知和现实环境中。在挑战任务中实现了全新的 state-of-the-art，而不需要特定于任务的归纳偏差，并在稀疏奖励、基于像素的 VizDoom 环境中与现有方法匹配，在 Habitat 上的无奖励探究中优于现有方法。

Oct, 2022

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023