通过椭圆周期性奖励进行探索

Oct, 2022

Exploration via Elliptical Episodic Bonuses

Mikael Henaff, Roberta Raileanu, Minqi Jiang, Tim Rocktäschel

TL;DR研究了强化学习（RL）方法在探索复杂环境时的有效性，并引入通过椭圆形周期性奖励探索方法（E3B）以扩展计数周期性奖励至连续状态空间，使用反向动力学模型学习嵌入以捕获环境可控方面，可扩展到高维像素感知和现实环境中。在挑战任务中实现了全新的 state-of-the-art，而不需要特定于任务的归纳偏差，并在稀疏奖励、基于像素的 VizDoom 环境中与现有方法匹配，在 Habitat 上的无奖励探究中优于现有方法。

Abstract

In recent years, a number of reinforcement learning (RL) methods have been proposed to explore complex environments which differ across episodes. In this work, we show that the effectiveness of these methods critically relies on a count-based episodic term in their →

reinforcement learning exploration episodic bonuses inverse dynamics model high-dimensional observations

发现论文，激发创造

基于上下文的 MDP 探索中全局和情景奖励研究

本文研究了不同环境下的探索问题，并通过在易于解释的任务和具有挑战性的像素环境中进行的实验，阐明了全局和特定情境新奖金的行为。我们发现，这两种奖金在不同的环境中均有成功的情况，其中在环境之间没有共享结构时，具有情境的奖金最为有效，而在存在更多共享结构时，全局奖金是有效的。我们对这种共享结构的概念框架进行了研究，并考虑了基于函数逼近的定义和组合全局和特定情境奖金的算法选择，从而提出了一种新技术，其表现优于过去的工作中使用的 MiniHack 套件的 16 项任务，同时在 Habitat 和 Montezuma's Revenge 上表现稳健。

Jun, 2023

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

扩展状态奖励空间的情节强化学习

通过引入扩展状态 - 奖励空间的高效 EC-based DRL 框架，我们的方法能够同时充分利用检索信息和通过时序差分 (TD) 损失更好地评估状态值，从而在具有挑战性的任务中表现出优越性。

Jan, 2024

超越想象：通过世界模型最大化情节可达性

本文介绍了一种名为 GoBI（Go Beyond Imagination）的新型内在奖励设计，结合传统的终身新颖性动机和以步进可达性扩展为目标设计的情节内在奖励，通过应用学习到的世界模型生成具有随机动作的预测未来状态，从而给予那些在情节记忆中没有独特预测的状态高内在奖励，该方法在 12 个最具挑战性的 Minigrid 导航任务上大大优于之前最先进的方法，并提高了 DeepMind Control Suite 中运动任务的样本效率。

Aug, 2023

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

基于奖励的探索方法在 Arcade Learning Environment 上的基准测试

在使用 Rainbow 算法的情况下，通过给予不同的激励奖励来比较不同探索算法在《蒙特祖玛的复仇》等难度大的游戏中的性能影响，结果表明这些新算法并没有显著的提高性能，在一些不需要探索的游戏中甚至表现更差。

Aug, 2019

基于状态抽象的近似探索

研究强化学习中探索和近似之间的相互作用，提出一种基于密度建模的方法来改善探索，探讨伪计数奖励在此方法中的应用，发现了在其应用中可能存在的过度或不足探索问题，并提出一种新的伪计数奖励来缓解这些问题。

Aug, 2018

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

强化学习中纯探索的快速主动学习

研究表明，对于纯探索目标的奖励免费探索，按比例缩放的奖励可以带来更快的学习率，从而提高了对于时限的依赖性的已知上限。此外，在最佳策略识别设置中，改进的停止时间分析可以将样本复杂度提高一倍。

Jul, 2020

生态学强化学习

本文讨论了针对非情节式、奖励稀疏的强化学习任务中的环境特性，如何应用 “环境塑形” 和 “环境动态性” 等方法来提升学习效果，并通过实验验证了这些方法的有效性。

Jun, 2020