使用后继特征进行多任务转移的任务重新标记
本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设,实现从一组任务到另一组任务的优雅而健壮的技能迁移方法,并在一个复杂的三维环境下进行了实证验证。
Jan, 2019
介绍了一种基于 SF 的新算法,它允许 RL 代理结合现有策略,并在任意新问题上直接识别出最优策略,无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为,且性能优于现有竞争算法。
Jun, 2022
我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架,用于处理奖励函数在不同任务之间变化的情况,并且可以在不同任务之间自由地交换信息,同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中,该方法成功地促进了优化的转移,明显优于其他方法.
Jun, 2016
通过非整体探索方法,我们提出了一种基于后继特征(SFs)的新型无监督预训练模型,该模型分解了代理人的开发和探索,旨在改善原始的后继特征预训练的整体探索方法的性能,并在比较实验中超越了具有后继特征的主动预训练(APS)。
May, 2024
使用混合模型驱动的继任特征算法和不确定性感知探索的方法,能够在具有不同转换动力学或 / 和奖励函数的任务之间实现高效的知识传输,并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比,结果表明我们的算法能够在不同的转换动力学中泛化知识,使用明显更少的样本学习下游任务,并且优于现有方法。
Oct, 2023
本文提出了一种新的神经网络结构 MSFA,这种结构通过模块化的方式发现了对预测有用的状态特征并学习了它们自己的预测表示形式,相比于传统的基准架构和模块化架构,MSFA 能够更好地泛化。
Jan, 2023
本文分析了不同潜在状态空间的属性,发现了模型学习与模型自由强化学习之间的新联系,并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广,从而进一步实现模型学习和继承特征之间的联系。
Jan, 2019
通过在模型自由学习算法中引入自我监督学习的方法,使其能够实现任务转移;该方法是有监督的,可以在没有奖励标签的情况下进行训练,并且可以快速地部署到新任务中。
May, 2023
研究机器人导航,提出了一种基于强化学习的算法,通过前期掌握的导航知识,能快速适应不同环境下的导航任务,并与经典基于规划的导航方法进行对比。
Dec, 2016