探索：基于计数的深度强化学习探索研究

NIPSNov, 2016

探索：基于计数的深度强化学习探索研究

#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning

Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen...

TL;DR通过使状态映射到哈希码中并使用哈希表计算它们的出现次数，来提高高维状态空间下的基于计数的探索策略解决 MDP 问题的性能。实验发现，简单的哈希函数和领域相关的学习哈希码都可以大大提高基于计数的探索策略的性能，且在连续控制任务和 Atari 2600 游戏中取得了接近最先进的性能表现。

Abstract

count-based exploration algorithms are known to perform near-optimally when used in conjunction with tabular reinforcement learning (RL) methods for solving small discrete Markov decision processes (MDPs). It is

count-based exploration reinforcement learning hash codes high-dimensional state spaces exploration strategy

发现论文，激发创造

强化学习中基于特征空间的计数探索

本文介绍了一种新的计数乐观探索算法，可在高维状态 - 动作空间中使用，并提出了一个新方法来计算泛化状态的访问次数，从而解决了限制训练经验进行广义状态估计的问题。实验表明，该算法在高维 RL 基准测试中取得了接近最新的结果，且计算代价较低。

Jun, 2017

使用翻硬币的方法估计强化学习中的假计数以进行探索

我们在高维状态空间中提出了一种新的基于计数的探索方法，通过平均来自 Rademacher 分布（或硬币翻转）的样本，得到计数，并使用一个简单的监督学习目标进行优化，可以获得状态的访问计数。此方法在 9 个具有挑战性的探索任务中表现优异，并优于现有的方法。

Jun, 2023

连续状态空间中的显式探索 - 利用算法

提出了一种基于模型的强化学习算法，该算法包括明确的探索和利用阶段，并适用于大规模或无限状态空间，该算法维护一组与当前体验一致的动态模型，并通过查找在状态预测之间引起高度分歧的策略来进行探索，然后利用精细化的模型或在探索过程中收集的体验，我们证明，在实现和最优规划的假设下，我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策，并给出了一个使用神经网络的实用近似，并证明了它在实践中的性能和样本效率。

Nov, 2019

使用继承表示实现基于计数的探索

介绍了基于继承代表（successor representation）的强化学习的简单方法，利用其转移概念的范数作为奖励来激励探索，以及用隐式计数实现高效完备探索，并在 Atari 2600 游戏中实现了最先进的性能。

Jul, 2018

基于状态抽象的近似探索

研究强化学习中探索和近似之间的相互作用，提出一种基于密度建模的方法来改善探索，探讨伪计数奖励在此方法中的应用，发现了在其应用中可能存在的过度或不足探索问题，并提出一种新的伪计数奖励来缓解这些问题。

Aug, 2018

基于邻近状态的强化学习探索

本文研究了强化学习中的探索开发平衡问题，并提出两种基于邻近状态的无模型探索算法，其中一种方法（${ho}$-explore）在离散环境中相比于基准算法 Double DQN，在评估奖励回报方面提高了 49％。

Dec, 2022

统一计数探索和内在动机

使用密度模型衡量不确定性，提出了一种从任意密度模型中导出虚拟计数的新算法，并将其应用于 Atari 2600 游戏中，通过将这些虚拟计数转化为内在奖励，取得了显著的改进。

Jun, 2016

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

探索性示例模型用于深度强化学习

本文提出了一种基于判别式训练范例模型的探索性新颖性检测算法，该算法可以应用于稀疏回报问题的深度强化学习任务，此方法在 vizDoom 基准测试中取得了最先进的结果。

Mar, 2017

有界最优探索在 MDP 中的应用

本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛，并通过理论分析和数字示例展示所提出的放宽条件的好处，同时维持任何时候的误差边界和平均损失边界，并且适用于贝叶斯和非贝叶斯方法。

Apr, 2016