ELDEN: 基于本地依赖关系的探索

Oct, 2023

ELDEN: Exploration via Local Dependencies

Jiaheng Hu, Zizhao Wang, Peter Stone, Roberto Martin-Martin

TL;DR通过使用局部依赖性的探索，ELDEN 将其作为内在奖励来鼓励产生新的实体间相互作用，从而在复杂依赖关系领域中明确地识别和学习成功的策略。

Abstract

Tasks with large state space and sparse rewards present a longstanding challenge to reinforcement learning. In these tasks, an agent needs to explore the state space efficiently until it finds a reward. To deal with this problem, the community has proposed to augment the reward functio

reinforcement learning exploration intrinsic reward factored state spaces local dependencies

发现论文，激发创造

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

强化学习中利用 Rényi 状态熵加速探索

为解决深度强化学习中的长期探索能力问题，本文提出了一种基于 Rényi 熵的新型内在奖励模块，并通过较广泛的模拟结果证明了其高于现有方案的性能。

Mar, 2022

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

自监督利用探索

本研究提出了一种基于内在动机的算法，采用自监督学习中的蒸馏误差作为新奇检测器，通过经验表明在十种难以探索的环境中，相对于基准模型，该方法能够更快地增长和获得更高的外部奖励，从而提高了在非常稀疏的奖励环境中的探索性能。

Feb, 2023

多智能体强化学习中基于内在奖励的协调探索

该论文介绍了一种为多智能体设计内在奖励的框架，以促进协调探索，然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。

May, 2019

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

信息内容探索

稀疏奖励环境对于强化学习代理是具有挑战性的，本文提出了一种新的内在奖励，系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖，通过与其他探索性内在奖励技术（即好奇心驱动学习和随机网络蒸馏）进行比较，证明了该信息理论奖励具有高效探索，其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后，我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法，提高了样本效率并推广到连续状态空间。

Oct, 2023

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023