深度继承强化学习

Jun, 2016

Deep Successor Reinforcement Learning

Tejas D. Kulkarni, Ardavan Saeedi, Simanta Gautam, Samuel J. Gershman

TL;DR该论文介绍了 DSR，即在一个端到端的深度强化学习框架中，将 SR 进行了推广，通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度，并能够从随机策略下训练的继任者地图中提取瓶颈状态（子目标）。然后在两个不同的环境中展示了该方法的有效性，包括简单的网格世界领域和 Doom 游戏引擎。

Abstract

Learning robust value functions given raw observations and rewards is now possible with model-free and model-based deep reinforcement learning algorithms. There is a third alternative, called →

successor representations deep reinforcement learning raw observations reward predictor dsr

发现论文，激发创造

使用继承表示实现基于计数的探索

介绍了基于继承代表（successor representation）的强化学习的简单方法，利用其转移概念的范数作为奖励来激励探索，以及用隐式计数实现高效完备探索，并在 Atari 2600 游戏中实现了最先进的性能。

Jul, 2018

利用后继表示加速建构性预测框架的学习

本文研究使用后继表示法（SR）加速基于通用价值函数（GVF）的积极知识系统的学习，在网格世界中分析了该方法，并在机器人物理数据上证明了它的潜力。

Mar, 2018

一个类似于继承表现的分布式模型

该研究提出了一种新的分布式强化学习方法，它清晰地将过渡结构和奖励在学习过程中分开，通过最小化两层最大均值差异来学习分布式后继度量，进而实现零 - shot 风险敏感策略评估。

Feb, 2024

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

时间扩展继承表示

本文介绍一种称为 t-SR 的时间上扩展的后继表示法，它通过构造基本动作的继承表示来捕获时间上扩展的操作的预期状态转移动态，从而减少了控制所需的决策数量，同时学习到时间上扩展的动作序列的时域，优于价值基、非模型强化学习方法。

Sep, 2022

继任者表示主动推理

本文介绍了新型的 active inference agent 架构，基于 successor representations，利用了贝叶斯滤波的先驱矩阵的概率解释。研究结果表明，相对于当前的 active inference agent，successor representations agent 在计划视野和计算成本方面具有显著优势，而且能够适应比如预期自由能量等变化的奖励函数。

Jul, 2022

递减奖励的状态表示

在多任务强化学习中，我们研究了递减边际效用现象，并引入了一种新的状态表示，λ 表示（λR），它在政策评估方面的性能优于其他表示方法，并且在研究自然行为，特别是觅食行为方面也很有用。

Sep, 2023

学习后继状态和目标相关价值：数学视角

本文介绍基于时间差异的强化学习理论，讨论了继承状态和与目标有关的价值函数模型的应用，并提供了适用于离散或连续环境下的迭代算法，其中 Bellman-Newton 操作符编码环境中路径的组合形成性，提供状态的两个典型表示，并提供函数的真实更新确保了渐进收敛，不依赖于环境的速率。

Jan, 2021

基于推断的后继映射进行更好的迁移学习

我们提出了一种算法来解决多任务学习中的转移问题，该算法结合了因子化表示和非参数、基于记忆的方法，并利用后继表示法来提高转移能力和性能表现。同时，该算法提供了一个更好的神经生物学模型来解释海马体区域的空间编码特征。

Jun, 2019

使用奇异值分解的深度强化学习表示与探索

该研究论文介绍了一个基于奇异值分解的方法，用于在领域中保留基础转换结构的表示，从而提供伪计数的估计，在多任务中展示了结果，并解决了部分可观测的环境下的难以探索的任务。

May, 2023