强化学习中的后继特征迁移

NIPSJun, 2016

Successor Features for Transfer in Reinforcement Learning

André Barreto, Will Dabney, Rémi Munos, Jonathan J. Hunt, Tom Schaul...

TL;DR我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Abstract

transfer in reinforcement learning refers to the notion that generalization should occur not only within a task but also across tasks. We propose a →

transfer reinforcement learning successor features generalized policy improvement performance guarantees

发现论文，激发创造

使用后继特征和泛化策略改进的深度强化学习转移

本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设，实现从一组任务到另一组任务的优雅而健壮的技能迁移方法，并在一个复杂的三维环境下进行了实证验证。

Jan, 2019

转移强化学习的通用继承特征

本文提出了通用后继特征用于环境建模和知识迁移，实验结果表明，该方法可以加速多任务学习且在新任务中有效地迁移知识。

Jan, 2020

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

使用后继特征进行多任务转移的任务重新标记

本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能，并提出了一种任务重标记的方法以实现迁移学习。

May, 2022

面向转移强化学习的通用继承表示

研究转移强化学习中普适继承表示的使用，证明其在任务泛化和知识传输方面具有效用，并通过 USRA 的初始化使智能体更快地实现目标。

Apr, 2018

基于后继状态特征的深度强化学习在相似环境导航中的应用

研究机器人导航，提出了一种基于强化学习的算法，通过前期掌握的导航知识，能快速适应不同环境下的导航任务，并与经典基于规划的导航方法进行对比。

Dec, 2016

基于乐观的线性支持和继承特征的最优策略转移

介绍了一种基于 SF 的新算法，它允许 RL 代理结合现有策略，并在任意新问题上直接识别出最优策略，无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为，且性能优于现有竞争算法。

Jun, 2022

具备变分内在继承特征的快速任务推理

本文介绍了一种将马尔可夫决策过程和继承特征相结合的算法 (VISR)，该算法通过学习可控特征对继承特征进行增强，从而实现对 Atari 游戏中奖励的快速学习和泛化能力，并在 14 个游戏中实现了人类水平的表现。

Jun, 2019

基于后继特征的元强化学习

为了实现多任务学习和数据效率，提出了一种基于环境变量和后继特征框架的元强化学习方法，可在减少环境交互的情况下实现具有竞争力的性能和数据效率。

Jul, 2022

通用后继特征逼近器

我们提出了一种新型的普适继承特征逼近器，利用其可进行上下文下多种策略迁移与推论，提高了强化学习算法的鲁棒性和实用性，并在一款首人称三维环境导航应用上展示了其广泛适用性。

Dec, 2018