使用继承表示实现基于计数的探索

AAAIJul, 2018

使用继承表示实现基于计数的探索

Count-Based Exploration with the Successor Representation

Marlos C. Machado, Marc G. Bellemare, Michael Bowling

TL;DR介绍了基于继承代表（successor representation）的强化学习的简单方法，利用其转移概念的范数作为奖励来激励探索，以及用隐式计数实现高效完备探索，并在 Atari 2600 游戏中实现了最先进的性能。

Abstract

In this paper we introduce a simple approach for exploration in reinforcement learning (RL) that allows us to develop theoretically justified algorithms in the tabular case but that is also extendable to settings where function approximation is required. Our approach is based on the su

reinforcement learning successor representation exploration function approximation deep rl

发现论文，激发创造

深度继承强化学习

该论文介绍了 DSR，即在一个端到端的深度强化学习框架中，将 SR 进行了推广，通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度，并能够从随机策略下训练的继任者地图中提取瓶颈状态（子目标）。然后在两个不同的环境中展示了该方法的有效性，包括简单的网格世界领域和 Doom 游戏引擎。

Jun, 2016

时间扩展继承表示

本文介绍一种称为 t-SR 的时间上扩展的后继表示法，它通过构造基本动作的继承表示来捕获时间上扩展的操作的预期状态转移动态，从而减少了控制所需的决策数量，同时学习到时间上扩展的动作序列的时域，优于价值基、非模型强化学习方法。

Sep, 2022

递减奖励的状态表示

在多任务强化学习中，我们研究了递减边际效用现象，并引入了一种新的状态表示，λ 表示（λR），它在政策评估方面的性能优于其他表示方法，并且在研究自然行为，特别是觅食行为方面也很有用。

Sep, 2023

一个类似于继承表现的分布式模型

该研究提出了一种新的分布式强化学习方法，它清晰地将过渡结构和奖励在学习过程中分开，通过最小化两层最大均值差异来学习分布式后继度量，进而实现零 - shot 风险敏感策略评估。

Feb, 2024

强化学习中基于特征空间的计数探索

本文介绍了一种新的计数乐观探索算法，可在高维状态 - 动作空间中使用，并提出了一个新方法来计算泛化状态的访问次数，从而解决了限制训练经验进行广义状态估计的问题。实验表明，该算法在高维 RL 基准测试中取得了接近最新的结果，且计算代价较低。

Jun, 2017

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

继任者表示主动推理

本文介绍了新型的 active inference agent 架构，基于 successor representations，利用了贝叶斯滤波的先驱矩阵的概率解释。研究结果表明，相对于当前的 active inference agent，successor representations agent 在计划视野和计算成本方面具有显著优势，而且能够适应比如预期自由能量等变化的奖励函数。

Jul, 2022

探索：基于计数的深度强化学习探索研究

通过使状态映射到哈希码中并使用哈希表计算它们的出现次数，来提高高维状态空间下的基于计数的探索策略解决 MDP 问题的性能。实验发现，简单的哈希函数和领域相关的学习哈希码都可以大大提高基于计数的探索策略的性能，且在连续控制任务和 Atari 2600 游戏中取得了接近最先进的性能表现。

Nov, 2016

基于推断的后继映射进行更好的迁移学习

我们提出了一种算法来解决多任务学习中的转移问题，该算法结合了因子化表示和非参数、基于记忆的方法，并利用后继表示法来提高转移能力和性能表现。同时，该算法提供了一个更好的神经生物学模型来解释海马体区域的空间编码特征。

Jun, 2019

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016