基于混合模型的继承特征强化学习在任务间的不确定性迁移

Oct, 2023

基于混合模型的继承特征强化学习在任务间的不确定性迁移

Uncertainty-aware transfer across tasks using hybrid model-based successor feature reinforcement learning

Parvin Malekzadeh, Ming Hou, Konstantinos N. Plataniotis

TL;DR使用混合模型驱动的继任特征算法和不确定性感知探索的方法，能够在具有不同转换动力学或 / 和奖励函数的任务之间实现高效的知识传输，并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比，结果表明我们的算法能够在不同的转换动力学中泛化知识，使用明显更少的样本学习下游任务，并且优于现有方法。

Abstract

sample efficiency is central to developing practical reinforcement learning (RL) for complex and large-scale decision-making problems. The ability to transfer and generalize knowledge gained from previous experiences to downstream tasks can significantly improve →

sample efficiency successor feature rl model-based methods uncertainty-aware exploration knowledge transfer

发现论文，激发创造

基于乐观的线性支持和继承特征的最优策略转移

介绍了一种基于 SF 的新算法，它允许 RL 代理结合现有策略，并在任意新问题上直接识别出最优策略，无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为，且性能优于现有竞争算法。

Jun, 2022

使用后继特征进行多任务转移的任务重新标记

本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能，并提出了一种任务重标记的方法以实现迁移学习。

May, 2022

使用后继特征和泛化策略改进的深度强化学习转移

本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设，实现从一组任务到另一组任务的优雅而健壮的技能迁移方法，并在一个复杂的三维环境下进行了实证验证。

Jan, 2019

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

基于推断的后继映射进行更好的迁移学习

我们提出了一种算法来解决多任务学习中的转移问题，该算法结合了因子化表示和非参数、基于记忆的方法，并利用后继表示法来提高转移能力和性能表现。同时，该算法提供了一个更好的神经生物学模型来解释海马体区域的空间编码特征。

Jun, 2019

转移强化学习的通用继承特征

本文提出了通用后继特征用于环境建模和知识迁移，实验结果表明，该方法可以加速多任务学习且在新任务中有效地迁移知识。

Jan, 2020

多任务强化学习的样本复杂度

介绍了一种新的多任务算法用于强化学习任务，该算法显着减少了探索的每个任务的样本复杂性，并保证不会出现负转移，与对应的单任务算法相比具有可比性。

Sep, 2013

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

强化学习中的序列迁移与生成模型

本研究旨在探讨如何设计强化学习代理，通过从之前解决的任务中转移知识，明确减少学习新任务的样本复杂度。具体地，本文关注第二种目标，即当代理具有状态行为对的生成模型时，如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型，并使用谱方法从中恢复其参数。最后，我们在简单的模拟领域中实证了我们的理论发现。

Jul, 2020