基于乐观的线性支持和继承特征的最优策略转移

ICMLJun, 2022

基于乐观的线性支持和继承特征的最优策略转移

Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer

Lucas N. Alegre, Ana L. C. Bazzan, Bruno C. da Silva

TL;DR介绍了一种基于 SF 的新算法，它允许 RL 代理结合现有策略，并在任意新问题上直接识别出最优策略，无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为，且性能优于现有竞争算法。

Abstract

In many real-world applications, reinforcement learning (RL) agents might have to solve multiple tasks, each one typically modeled via a reward function. If reward functions are expressed linearly, and the agent has previously learned a set of policies for different tasks,

reinforcement learning successor features transfer learning optimization convex coverage set

发现论文，激发创造

使用后继特征和泛化策略改进的深度强化学习转移

本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设，实现从一组任务到另一组任务的优雅而健壮的技能迁移方法，并在一个复杂的三维环境下进行了实证验证。

Jan, 2019

使用后继特征进行多任务转移的任务重新标记

本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能，并提出了一种任务重标记的方法以实现迁移学习。

May, 2022

基于混合模型的继承特征强化学习在任务间的不确定性迁移

使用混合模型驱动的继任特征算法和不确定性感知探索的方法，能够在具有不同转换动力学或 / 和奖励函数的任务之间实现高效的知识传输，并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比，结果表明我们的算法能够在不同的转换动力学中泛化知识，使用明显更少的样本学习下游任务，并且优于现有方法。

Oct, 2023

利用学习的策略基础进行规划以最优解决复杂任务

用继任特征学习策略基础，以解决具有非马尔可夫奖励规范的多个任务的广义问题，在有限状态自动机中描述的任务中，使用这些（子）策略的组合可以在无需额外学习的情况下生成最优解，与通过规划组合（子）策略的其他方法相比，本方法能达到全局最优性，即使在随机环境中也是如此。

Mar, 2024

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

转移强化学习的通用继承特征

本文提出了通用后继特征用于环境建模和知识迁移，实验结果表明，该方法可以加速多任务学习且在新任务中有效地迁移知识。

Jan, 2020

通用后继特征逼近器

我们提出了一种新型的普适继承特征逼近器，利用其可进行上下文下多种策略迁移与推论，提高了强化学习算法的鲁棒性和实用性，并在一款首人称三维环境导航应用上展示了其广泛适用性。

Dec, 2018

基于后继特征标志的长视程目标导向强化学习

本文介绍 Successor Feature Landmarks（SFL），它是用于大型、高维空间的探索的一个框架，该框架利用继承特征（SF）的能力来驱动探索，估计状态新颖性，并通过将状态空间抽象为基于非参数地标的图表，启用高级别规划，实现了 GCRL 任务上的超越表现。

Nov, 2021

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

模块化后继特征逼近器的任务知识组合

本文提出了一种新的神经网络结构 MSFA，这种结构通过模块化的方式发现了对预测有用的状态特征并学习了它们自己的预测表示形式，相比于传统的基准架构和模块化架构，MSFA 能够更好地泛化。

Jan, 2023