利用随机编码器最大化状态熵以进行高效探索

ICMLFeb, 2021

利用随机编码器最大化状态熵以进行高效探索

State Entropy Maximization with Random Encoders for Efficient Exploration

Younggyo Seo, Lili Chen, Jinwoo Shin, Honglak Lee, Pieter Abbeel...

TL;DR本文介绍了一种基于状态熵作为内在奖励的随机编码器（Random Encoders for Efficient Exploration，RE3）的探索方法，旨在解决高维观察空间中的有效探索问题，并在 DeepMind Control Suite 和 MiniGrid 基准测试的行动和导航任务中得到了显著的样本效率改进，并且在无外部奖励的情况下，可以学习多样化的行为。

Abstract

Recent exploration methods have proven to be a recipe for improving sample-efficiency in deep reinforcement learning (RL). However, efficient exploration in high-dimensional observation spaces still remains a cha

deep reinforcement learning efficient exploration random encoders state entropy sample-efficiency

发现论文，激发创造

强化学习中利用 Rényi 状态熵加速探索

为解决深度强化学习中的长期探索能力问题，本文提出了一种基于 Rényi 熵的新型内在奖励模块，并通过较广泛的模拟结果证明了其高于现有方案的性能。

Mar, 2022

使用值条件状态熵探索加速强化学习

本文提出了一种基于价值条件下的状态熵探索技术，该技术通过最大化条件价值估计的状态熵的平均值，分别估计每个状态的状态熵，再通过只考虑状态价值估计相似的访问状态来计算内在奖励，从而避免了低价值状态分布影响高价值状态周围的探索，加速了多种 RL 算法在各种任务中的表现。

May, 2023

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

解锁表征在长期基于新奇性探索中的力量

本文中介绍了 RECODE （Robust Exploration via Clustering-based Online Density Estimation）方法，该方法是一种基于相似性的聚类计数探索算法，能够有效地跟踪状态出现的次数，并且结合一种新颖的多步预测方法，RECODE 取得了各种挑战性的 3D 环境中最先进的性能，在 Atari 游戏中取得了新的最高记录，并成为首个到达 “Pitfall！” 游戏终点的人工智能代理。

May, 2023

几何熵探索

本文介绍了通过 Geometric Entropy Maximisation (GEM) 算法，实现在离散和连续领域中最大化状态访问的 Shannon 熵的几何感知，以解决复杂的强化学习问题。该算法的优势在于可以很好地解决具有稀疏奖励的强化学习问题，并被证实比其他深度强化学习探索方法更有效。

Jan, 2021

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024

学习潜在状态表示以加速探索

通过先前的经验来学习有效的隐藏表示，以指示探索的区域，这对高维空间中的探索尤其有益。

May, 2019

基于表征空间的新颖性搜索，用于高效探索

通过将环境的低维编码与基于模型和无模型目标相结合的学习相结合，提出了一种有效探索的新方法，利用了基于低维表示空间最近邻之间的距离来衡量新颖性的固有奖励，进而在表示空间中利用这些固有奖励在奖励稀疏的困难探索任务中进行样本高效的探索。

Sep, 2020

最大熵深层逆强化学习

本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架，并展示了最大熵范例在 IRL 中的有效训练方法，具有与现有基准相当的性能，超过基于高度变化奖励结构的替代基准。同时，作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。

Jul, 2015

通过潜在状态解码的丰富观测下可证明的高效强化学习

该论文研究了在具有大量从少量潜在状态生成的丰富观察结果的情节 MDPs 中的探索问题。在某些可辨识性假设下，研究人员通过一系列回归和聚类步骤归纳地估计了从观察到潜在状态的映射，并使用它构建了良好的探索策略。

Jan, 2019