一个类似于继承表现的分布式模型

Feb, 2024

一个类似于继承表现的分布式模型

A Distributional Analogue to the Successor Representation

Harley Wiltzer, Jesse Farebrother, Arthur Gretton, Yunhao Tang, André Barreto...

TL;DR该研究提出了一种新的分布式强化学习方法，它清晰地将过渡结构和奖励在学习过程中分开，通过最小化两层最大均值差异来学习分布式后继度量，进而实现零 - shot 风险敏感策略评估。

Abstract

This paper contributes a new approach for distributional reinforcement learning which elucidates a clean separation of transition structure and reward in the learning process. Analogous to how the successor representation (SR) describes the expected consequences of behaving according t

reinforcement learning successor representation distributional successor measure generative models risk-sensitive policy evaluation

发现论文，激发创造

使用继承表示实现基于计数的探索

介绍了基于继承代表（successor representation）的强化学习的简单方法，利用其转移概念的范数作为奖励来激励探索，以及用隐式计数实现高效完备探索，并在 Atari 2600 游戏中实现了最先进的性能。

Jul, 2018

深度继承强化学习

该论文介绍了 DSR，即在一个端到端的深度强化学习框架中，将 SR 进行了推广，通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度，并能够从随机策略下训练的继任者地图中提取瓶颈状态（子目标）。然后在两个不同的环境中展示了该方法的有效性，包括简单的网格世界领域和 Doom 游戏引擎。

Jun, 2016

递减奖励的状态表示

在多任务强化学习中，我们研究了递减边际效用现象，并引入了一种新的状态表示，λ 表示（λR），它在政策评估方面的性能优于其他表示方法，并且在研究自然行为，特别是觅食行为方面也很有用。

Sep, 2023

时间扩展继承表示

本文介绍一种称为 t-SR 的时间上扩展的后继表示法，它通过构造基本动作的继承表示来捕获时间上扩展的操作的预期状态转移动态，从而减少了控制所需的决策数量，同时学习到时间上扩展的动作序列的时域，优于价值基、非模型强化学习方法。

Sep, 2022

基于推断的后继映射进行更好的迁移学习

我们提出了一种算法来解决多任务学习中的转移问题，该算法结合了因子化表示和非参数、基于记忆的方法，并利用后继表示法来提高转移能力和性能表现。同时，该算法提供了一个更好的神经生物学模型来解释海马体区域的空间编码特征。

Jun, 2019

风险厌恶强化学习的分布式方法

我们提出了一种分布式方法，用于在风险规避马尔可夫决策过程中学习最优策略，该方法使用嵌套 Kusuoka 类型条件风险映射构造的动态风险度量来评估策略表现，利用了对应动态规划原理中嵌入的某些结构，使用深度神经网络逼近值函数的条件分布，避免了探索阶段的维度灾难，并使用随机选择的一系列模型参数探索了该方法的性能。

Feb, 2023

使用继承表示的深度强化学习方法实现边缘化重要性采样

本文介绍了一种基于 successor representation 的边际重要性抽样 (MIS) 方法，与当前最先进的 MIS 方法相比，该方法减少了优化难度并具有普适性。作者在 Atari 和 MuJoCo 等挑战性环境中进行了实验性能评估。

Jun, 2021

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

学习分布式希伯阶相邻表征

这篇论文介绍了一种针对不稳定、部分可观测环境下决策的在线隐藏表示学习方法。提出的分布式赫比时态记忆（DHTM）算法基于因子图形式和多组分神经元模型，它旨在捕捉序列数据关系，并对未来观察作出累积预测，形成继承者表示。经实验证明，DHTM 算法在应对动态环境中的时序差异学习方面表现优于经典 LSTM，并与更高级的类似 RNN 的算法相当，加速了继承者表示中的时间差异学习。此外，我们将 DHTM 产生的继承者表示与另一种生物启发的类 HMM 算法 CSCG 进行了比较，发现 DHTM 是解决在线隐藏表示学习动态环境挑战的一种有前途的方法。

Oct, 2023

AKF-SR: 自适应卡尔曼滤波后继表征

该研究提出了基于自适应卡尔曼滤波的继承表达法，其中包括卡尔曼滤波和时变差分法，实现 SR 学习过程的不确定性估计，并提出了一种基于估计 SR 不确定性的主动学习方法，以提高智能体在与环境交互中的总体性能。

Mar, 2022