超越想象：通过世界模型最大化情节可达性

Aug, 2023

超越想象：通过世界模型最大化情节可达性

Go Beyond Imagination: Maximizing Episodic Reachability with World Models

Yao Fu, Run Peng, Honglak Lee

TL;DR本文介绍了一种名为 GoBI（Go Beyond Imagination）的新型内在奖励设计，结合传统的终身新颖性动机和以步进可达性扩展为目标设计的情节内在奖励，通过应用学习到的世界模型生成具有随机动作的预测未来状态，从而给予那些在情节记忆中没有独特预测的状态高内在奖励，该方法在 12 个最具挑战性的 Minigrid 导航任务上大大优于之前最先进的方法，并提高了 DeepMind Control Suite 中运动任务的样本效率。

Abstract

efficient exploration is a challenging topic in reinforcement learning, especially for sparse reward tasks. To deal with the reward sparsity, people commonly apply →

efficient exploration sparse reward tasks intrinsic rewards gobi world models

发现论文，激发创造

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

先 Go，后 Post-Exploration：后探索在内在动机中的益处

该论文研究了强化学习领域中的一种新方法 “Go-Explore”，通过后探索 (post-exploration) 的方式探明未知状态，通过试验在 MiniGrid 和 Mujoco 环境下得出结论，该方法具有通用性，易于实现，RL 研究人员可考虑在 intrinsically motivated goal exploration process 中采用 post-exploration。

Dec, 2022

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020

通过椭圆周期性奖励进行探索

研究了强化学习（RL）方法在探索复杂环境时的有效性，并引入通过椭圆形周期性奖励探索方法（E3B）以扩展计数周期性奖励至连续状态空间，使用反向动力学模型学习嵌入以捕获环境可控方面，可扩展到高维像素感知和现实环境中。在挑战任务中实现了全新的 state-of-the-art，而不需要特定于任务的归纳偏差，并在稀疏奖励、基于像素的 VizDoom 环境中与现有方法匹配，在 Habitat 上的无奖励探究中优于现有方法。

Oct, 2022

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023

信息内容探索

稀疏奖励环境对于强化学习代理是具有挑战性的，本文提出了一种新的内在奖励，系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖，通过与其他探索性内在奖励技术（即好奇心驱动学习和随机网络蒸馏）进行比较，证明了该信息理论奖励具有高效探索，其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后，我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法，提高了样本效率并推广到连续状态空间。

Oct, 2023

多智能体强化学习中避免重复探索

在多智能体强化学习领域，内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法，以应对神经网络统计近似器的有限表达能力所带来的挑战，并有效控制多次重复访问任务空间的现象，在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能，尤其是在稀疏奖励设置下。

Aug, 2023