使用翻硬币的方法估计强化学习中的假计数以进行探索

ICMLJun, 2023

使用翻硬币的方法估计强化学习中的假计数以进行探索

Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement Learning

Sam Lobel, Akhil Bagaria, George Konidaris

TL;DR我们在高维状态空间中提出了一种新的基于计数的探索方法，通过平均来自 Rademacher 分布（或硬币翻转）的样本，得到计数，并使用一个简单的监督学习目标进行优化，可以获得状态的访问计数。此方法在 9 个具有挑战性的探索任务中表现优异，并优于现有的方法。

Abstract

We propose a new method for count-based exploration in high-dimensional state spaces. Unlike previous work which relies on density models, we show that counts can be derived by averaging samples from the rademacher dist

count-based exploration high-dimensional state spaces rademacher distribution supervised learning objective model-free reinforcement learning

发现论文，激发创造

强化学习中基于特征空间的计数探索

本文介绍了一种新的计数乐观探索算法，可在高维状态 - 动作空间中使用，并提出了一个新方法来计算泛化状态的访问次数，从而解决了限制训练经验进行广义状态估计的问题。实验表明，该算法在高维 RL 基准测试中取得了接近最新的结果，且计算代价较低。

Jun, 2017

探索：基于计数的深度强化学习探索研究

通过使状态映射到哈希码中并使用哈希表计算它们的出现次数，来提高高维状态空间下的基于计数的探索策略解决 MDP 问题的性能。实验发现，简单的哈希函数和领域相关的学习哈希码都可以大大提高基于计数的探索策略的性能，且在连续控制任务和 Atari 2600 游戏中取得了接近最先进的性能表现。

Nov, 2016

基于神经密度模型的计数探索

这篇论文研究了在强化学习中，如何使用基于密度模型的伪计数、PixelCNN 等技术进行探索，特别考虑了密度模型对探索的影响，并发现 Monte Carlo 更新在探索中的作用。结果发现结合 PixelCNN 和不同结构的代理可以显著提高在多个难的 Atari 游戏中的性能，当模型假设被违反时，该方法更实用和普适。

Mar, 2017

统一计数探索和内在动机

使用密度模型衡量不确定性，提出了一种从任意密度模型中导出虚拟计数的新算法，并将其应用于 Atari 2600 游戏中，通过将这些虚拟计数转化为内在奖励，取得了显著的改进。

Jun, 2016

基于状态抽象的近似探索

研究强化学习中探索和近似之间的相互作用，提出一种基于密度建模的方法来改善探索，探讨伪计数奖励在此方法中的应用，发现了在其应用中可能存在的过度或不足探索问题，并提出一种新的伪计数奖励来缓解这些问题。

Aug, 2018

解锁表征在长期基于新奇性探索中的力量

本文中介绍了 RECODE （Robust Exploration via Clustering-based Online Density Estimation）方法，该方法是一种基于相似性的聚类计数探索算法，能够有效地跟踪状态出现的次数，并且结合一种新颖的多步预测方法，RECODE 取得了各种挑战性的 3D 环境中最先进的性能，在 Atari 游戏中取得了新的最高记录，并成为首个到达 “Pitfall！” 游戏终点的人工智能代理。

May, 2023

在文本游戏中计数以探索和泛化

本论文提出了一种带有片段式探索机制的循环强化学习代理，在文本游戏环境中发现良好策略。我们在一系列生成的文本游戏中展示了有希望的结果，游戏难度各异，目标是在一系列房间的末尾收集硬币。与以往的文本强化学习方法相比，我们发现我们的代理学习到可以泛化到更难的未见过游戏的策略。

Jun, 2018

使用继承表示实现基于计数的探索

介绍了基于继承代表（successor representation）的强化学习的简单方法，利用其转移概念的范数作为奖励来激励探索，以及用隐式计数实现高效完备探索，并在 Atari 2600 游戏中实现了最先进的性能。

Jul, 2018

高维度探索中的聚类和预训练表示方法

该论文采用密度估计问题的视角，研究在强化学习中基于表示的探索方法，提出了在 3D 环境中使用聚类表示进行探索的有效性，并探索了随机表示和预训练 DINO 表示进行聚类计数状态的方法，最终在 VizDoom 和 Habitat 环境中证明了该方法在探索方面优于其他已知方法。

Feb, 2024

通过潜在状态解码的丰富观测下可证明的高效强化学习

该论文研究了在具有大量从少量潜在状态生成的丰富观察结果的情节 MDPs 中的探索问题。在某些可辨识性假设下，研究人员通过一系列回归和聚类步骤归纳地估计了从观察到潜在状态的映射，并使用它构建了良好的探索策略。

Jan, 2019