使用后继特征和泛化策略改进的深度强化学习转移

ICMLJan, 2019

使用后继特征和泛化策略改进的深度强化学习转移

Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement

André Barreto, Diana Borsa, John Quan, Tom Schaul, David Silver...

TL;DR本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设，实现从一组任务到另一组任务的优雅而健壮的技能迁移方法，并在一个复杂的三维环境下进行了实证验证。

Abstract

The ability to transfer skills across tasks has the potential to scale up reinforcement learning (RL) agents to environments currently out of reach. Recently, a framework based on two ideas, successor features (S

reinforcement learning successor features generalized policy improvement transfer learning deep learning

发现论文，激发创造

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

使用后继特征进行多任务转移的任务重新标记

本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能，并提出了一种任务重标记的方法以实现迁移学习。

May, 2022

基于乐观的线性支持和继承特征的最优策略转移

介绍了一种基于 SF 的新算法，它允许 RL 代理结合现有策略，并在任意新问题上直接识别出最优策略，无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为，且性能优于现有竞争算法。

Jun, 2022

模块化后继特征逼近器的任务知识组合

本文提出了一种新的神经网络结构 MSFA，这种结构通过模块化的方式发现了对预测有用的状态特征并学习了它们自己的预测表示形式，相比于传统的基准架构和模块化架构，MSFA 能够更好地泛化。

Jan, 2023

通用后继特征逼近器

我们提出了一种新型的普适继承特征逼近器，利用其可进行上下文下多种策略迁移与推论，提高了强化学习算法的鲁棒性和实用性，并在一款首人称三维环境导航应用上展示了其广泛适用性。

Dec, 2018

转移强化学习的通用继承特征

本文提出了通用后继特征用于环境建模和知识迁移，实验结果表明，该方法可以加速多任务学习且在新任务中有效地迁移知识。

Jan, 2020

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

基于混合模型的继承特征强化学习在任务间的不确定性迁移

使用混合模型驱动的继任特征算法和不确定性感知探索的方法，能够在具有不同转换动力学或 / 和奖励函数的任务之间实现高效的知识传输，并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比，结果表明我们的算法能够在不同的转换动力学中泛化知识，使用明显更少的样本学习下游任务，并且优于现有方法。

Oct, 2023

基于后继特征标志的长视程目标导向强化学习

本文介绍 Successor Feature Landmarks（SFL），它是用于大型、高维空间的探索的一个框架，该框架利用继承特征（SF）的能力来驱动探索，估计状态新颖性，并通过将状态空间抽象为基于非参数地标的图表，启用高级别规划，实现了 GCRL 任务上的超越表现。

Nov, 2021

具备变分内在继承特征的快速任务推理

本文介绍了一种将马尔可夫决策过程和继承特征相结合的算法 (VISR)，该算法通过学习可控特征对继承特征进行增强，从而实现对 Atari 游戏中奖励的快速学习和泛化能力，并在 14 个游戏中实现了人类水平的表现。

Jun, 2019