利用后继表示加速建构性预测框架的学习

Mar, 2018

利用后继表示加速建构性预测框架的学习

Accelerating Learning in Constructive Predictive Frameworks with the Successor Representation

Craig Sherstan, Marlos C. Machado, Patrick M. Pilarski

TL;DR本文研究使用后继表示法（SR）加速基于通用价值函数（GVF）的积极知识系统的学习，在网格世界中分析了该方法，并在机器人物理数据上证明了它的潜力。

Abstract

Here we propose using the successor representation (SR) to accelerate learning in a constructive knowledge system based on general value functions (GVFs). In real-world settings like robotics for unstructured and

successor representation general value functions incremental learning reinforcement learning sample efficiency

发现论文，激发创造

深度继承强化学习

该论文介绍了 DSR，即在一个端到端的深度强化学习框架中，将 SR 进行了推广，通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度，并能够从随机策略下训练的继任者地图中提取瓶颈状态（子目标）。然后在两个不同的环境中展示了该方法的有效性，包括简单的网格世界领域和 Doom 游戏引擎。

Jun, 2016

AKF-SR: 自适应卡尔曼滤波后继表征

该研究提出了基于自适应卡尔曼滤波的继承表达法，其中包括卡尔曼滤波和时变差分法，实现 SR 学习过程的不确定性估计，并提出了一种基于估计 SR 不确定性的主动学习方法，以提高智能体在与环境交互中的总体性能。

Mar, 2022

预测性表征：智能的构建基石

自适应行为的核心是预测未来事件，本研究将强化学习理论与认知和神经科学研究整合，特别关注继承表示及其推广，表明特定类型的预测表示可能作为智能的多功能基石。

Feb, 2024

基于推断的后继映射进行更好的迁移学习

我们提出了一种算法来解决多任务学习中的转移问题，该算法结合了因子化表示和非参数、基于记忆的方法，并利用后继表示法来提高转移能力和性能表现。同时，该算法提供了一个更好的神经生物学模型来解释海马体区域的空间编码特征。

Jun, 2019

通用后继特征逼近器

我们提出了一种新型的普适继承特征逼近器，利用其可进行上下文下多种策略迁移与推论，提高了强化学习算法的鲁棒性和实用性，并在一款首人称三维环境导航应用上展示了其广泛适用性。

Dec, 2018

使用继承表示实现基于计数的探索

介绍了基于继承代表（successor representation）的强化学习的简单方法，利用其转移概念的范数作为奖励来激励探索，以及用隐式计数实现高效完备探索，并在 Atari 2600 游戏中实现了最先进的性能。

Jul, 2018

面向转移强化学习的通用继承表示

研究转移强化学习中普适继承表示的使用，证明其在任务泛化和知识传输方面具有效用，并通过 USRA 的初始化使智能体更快地实现目标。

Apr, 2018

时间扩展继承表示

本文介绍一种称为 t-SR 的时间上扩展的后继表示法，它通过构造基本动作的继承表示来捕获时间上扩展的操作的预期状态转移动态，从而减少了控制所需的决策数量，同时学习到时间上扩展的动作序列的时域，优于价值基、非模型强化学习方法。

Sep, 2022

通用价值函数网络

本文探讨了如何在 RNN 中使用多步预测来限制内部状态，提高训练性能，提出了一种新的 RNN 架构 GVFH，其中每个内部状态组件都对应一个表示为值函数的未来预测，并证明它比传统的 RNN 更加健壮。

Jul, 2018

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019