通用后继特征逼近器

Dec, 2018

Universal Successor Features Approximators

Diana Borsa, André Barreto, John Quan, Daniel Mankowitz, Rémi Munos...

TL;DR我们提出了一种新型的普适继承特征逼近器，利用其可进行上下文下多种策略迁移与推论，提高了强化学习算法的鲁棒性和实用性，并在一款首人称三维环境导航应用上展示了其广泛适用性。

Abstract

The ability of a reinforcement learning (RL) agent to learn about many reward functions at the same time has many potential benefits, such as the decomposition of complex tasks into simpler ones, the exchange of information between tasks, and the reuse of skills. We focus on one aspect

reinforcement learning generalisation universal successor features approximators successor features task transfer

发现论文，激发创造

转移强化学习的通用继承特征

本文提出了通用后继特征用于环境建模和知识迁移，实验结果表明，该方法可以加速多任务学习且在新任务中有效地迁移知识。

Jan, 2020

面向转移强化学习的通用继承表示

研究转移强化学习中普适继承表示的使用，证明其在任务泛化和知识传输方面具有效用，并通过 USRA 的初始化使智能体更快地实现目标。

Apr, 2018

使用后继特征和泛化策略改进的深度强化学习转移

本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设，实现从一组任务到另一组任务的优雅而健壮的技能迁移方法，并在一个复杂的三维环境下进行了实证验证。

Jan, 2019

模块化后继特征逼近器的任务知识组合

本文提出了一种新的神经网络结构 MSFA，这种结构通过模块化的方式发现了对预测有用的状态特征并学习了它们自己的预测表示形式，相比于传统的基准架构和模块化架构，MSFA 能够更好地泛化。

Jan, 2023

基于乐观的线性支持和继承特征的最优策略转移

介绍了一种基于 SF 的新算法，它允许 RL 代理结合现有策略，并在任意新问题上直接识别出最优策略，无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为，且性能优于现有竞争算法。

Jun, 2022

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

具备变分内在继承特征的快速任务推理

本文介绍了一种将马尔可夫决策过程和继承特征相结合的算法 (VISR)，该算法通过学习可控特征对继承特征进行增强，从而实现对 Atari 游戏中奖励的快速学习和泛化能力，并在 14 个游戏中实现了人类水平的表现。

Jun, 2019

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

基于混合模型的继承特征强化学习在任务间的不确定性迁移

使用混合模型驱动的继任特征算法和不确定性感知探索的方法，能够在具有不同转换动力学或 / 和奖励函数的任务之间实现高效的知识传输，并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比，结果表明我们的算法能够在不同的转换动力学中泛化知识，使用明显更少的样本学习下游任务，并且优于现有方法。

Oct, 2023

使用后继特征进行多任务转移的任务重新标记

本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能，并提出了一种任务重标记的方法以实现迁移学习。

May, 2022