基于乐观的线性支持和继承特征的最优策略转移
本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设,实现从一组任务到另一组任务的优雅而健壮的技能迁移方法,并在一个复杂的三维环境下进行了实证验证。
Jan, 2019
本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能,并提出了一种任务重标记的方法以实现迁移学习。
May, 2022
使用混合模型驱动的继任特征算法和不确定性感知探索的方法,能够在具有不同转换动力学或 / 和奖励函数的任务之间实现高效的知识传输,并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比,结果表明我们的算法能够在不同的转换动力学中泛化知识,使用明显更少的样本学习下游任务,并且优于现有方法。
Oct, 2023
用继任特征学习策略基础,以解决具有非马尔可夫奖励规范的多个任务的广义问题,在有限状态自动机中描述的任务中,使用这些(子)策略的组合可以在无需额外学习的情况下生成最优解,与通过规划组合(子)策略的其他方法相比,本方法能达到全局最优性,即使在随机环境中也是如此。
Mar, 2024
我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架,用于处理奖励函数在不同任务之间变化的情况,并且可以在不同任务之间自由地交换信息,同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中,该方法成功地促进了优化的转移,明显优于其他方法.
Jun, 2016
我们提出了一种新型的普适继承特征逼近器,利用其可进行上下文下多种策略迁移与推论,提高了强化学习算法的鲁棒性和实用性,并在一款首人称三维环境导航应用上展示了其广泛适用性。
Dec, 2018
本文介绍 Successor Feature Landmarks(SFL),它是用于大型、高维空间的探索的一个框架,该框架利用继承特征(SF)的能力来驱动探索,估计状态新颖性,并通过将状态空间抽象为基于非参数地标的图表,启用高级别规划,实现了 GCRL 任务上的超越表现。
Nov, 2021
本文分析了不同潜在状态空间的属性,发现了模型学习与模型自由强化学习之间的新联系,并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广,从而进一步实现模型学习和继承特征之间的联系。
Jan, 2019
本文提出了一种新的神经网络结构 MSFA,这种结构通过模块化的方式发现了对预测有用的状态特征并学习了它们自己的预测表示形式,相比于传统的基准架构和模块化架构,MSFA 能够更好地泛化。
Jan, 2023