通过创建固定目标来改进内在探索

Oct, 2023

通过创建固定目标来改进内在探索

Improving Intrinsic Exploration by Creating Stationary Objectives

Roger Creus Castanyer, Joshua Romoff, Glen Berseth

TL;DR通过定义定制的内部目标，强化学习中的探索奖励可以引导长期探索。基于计数的方法使用状态访问频率来获得探索奖励。本文发现，从基于计数的方法导出的任何内部奖励函数都是非平稳的，从而为agent引入了一个难以优化的目标。我们的工作的关键贡献在于通过增强状态表示将原始的非平稳奖励转化为平稳奖励。为此，我们引入了用于探索的稳态目标（SOFE）框架。SOFE需要为不同的探索奖励确定足够的统计信息，并找到这些统计信息的有效编码，以作为深度网络的输入。SOFE基于提出扩展状态空间的状态增强，但有望简化agent目标的优化。我们的实验证明，SOFE在具有挑战性的探索问题中提高了agent的性能，包括稀疏奖励任务，基于像素的观察，3D导航和程序生成的环境。

Abstract

exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Count-based methods use the frequency of state visits to derive an exploration bonus. In this

发现论文，激发创造

统一计数探索和内在动机

使用密度模型衡量不确定性，提出了一种从任意密度模型中导出虚拟计数的新算法，并将其应用于Atari 2600游戏中，通过将这些虚拟计数转化为内在奖励，取得了显著的改进。

Jun, 2016

强化学习中基于特征空间的计数探索

本文介绍了一种新的计数乐观探索算法，可在高维状态-动作空间中使用，并提出了一个新方法来计算泛化状态的访问次数，从而解决了限制训练经验进行广义状态估计的问题。实验表明，该算法在高维RL基准测试中取得了接近最新的结果，且计算代价较低。

Jun, 2017

计划性内在驱动: 对内在驱动探索的分层性见解

本文提出了一种调度内在驱动（SID）代理，通过将内在和外在操作策略分离和调度之间，增加探索效率并稳定学习，并引入了后继特征控制（SFC）作为内在奖励的一种新类型，考虑了完整轨迹上的统计信息。实验结果表明，使用SFC和内在驱动的分层使用，探索效率得到了大幅提高。

Mar, 2019

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020

强化学习中纯探索的快速主动学习

研究表明, 对于纯探索目标的奖励免费探索，按比例缩放的奖励可以带来更快的学习率，从而提高了对于时限的依赖性的已知上限。此外，在最佳策略识别设置中，改进的停止时间分析可以将样本复杂度提高一倍。

Jul, 2020

MADE: 探索性能通过最大化未探索区域的差异

针对在线强化学习中高维稀疏奖励问题，提出一种新的探索方法，通过最大化下一个策略区域探测点的占用偏差，引入自适应正则化项平衡探索和开发，得出一种内在回报函数，可以轻松地与其他现有强化学习算法结合实现探索，实验结果表明，在MiniGrid和DeepMind Control Suite基准任务中具有明显的样本效率提高，并且优于基于计数的探索策略。

Jun, 2021

应用内在动机技术于强化学习在难度较高的探索环境中的评估研究

本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响，强调这些设计方面的谨慎选择以及环境和任务的探索要求，以保证公正比较。

May, 2022

DEIR:基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法(DEIR)，实现了从代理探索中产生的新颖性的累积学习。在ProcGen数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

继承-前继内在探索

本篇论文提出了Successor-Predecessor Intrinsic Exploration (SPIE)算法，并将其应用于深度强化学习代理中，展示了在稀疏奖励和瓶颈状态下，相对于其它算法，SPIE能够产生更具效率和更符合生态的探索行为，并取得更强的实证效果。

May, 2023

随机潜在探索的深度强化学习

介绍了一种名为随机潜在探索（RLE）的新的探索技术，其结合了基于奖励和基于噪声的探索策略的优点，以有效地探索深度强化学习中的高维状态空间。RLE通过在环境的特定（随机）状态中将结构化的随机奖励添加到原始任务奖励中，鼓励代理在训练过程中探索环境。RLE易于实现且在实践中表现良好。通过在具有挑战性的Atari和IsaacGym基准测试上评估RLE，发现RLE在所有任务中表现出比其他方法更高的综合得分。

Jul, 2024