- 解耦无监督预训练中的探索与利用:后继特征
通过非整体探索方法,我们提出了一种基于后继特征(SFs)的新型无监督预训练模型,该模型分解了代理人的开发和探索,旨在改善原始的后继特征预训练的整体探索方法的性能,并在比较实验中超越了具有后继特征的主动预训练(APS)。
- 利用学习的策略基础进行规划以最优解决复杂任务
用继任特征学习策略基础,以解决具有非马尔可夫奖励规范的多个任务的广义问题,在有限状态自动机中描述的任务中,使用这些(子)策略的组合可以在无需额外学习的情况下生成最优解,与通过规划组合(子)策略的其他方法相比,本方法能达到全局最优性,即使在随 - 用于高效多主题控制文本生成的继承特征
大型语言模型(LLMs)在生成流畅和逼真的文本方面取得了令人印象深刻的性能,但控制生成的文本以展现安全性、真实性和无毒性等属性仍然具有挑战性。本研究提出了 SF-GEN,它基于两个主要概念:后继特征(SFs)用于将 LLM 的动态与任务特定 - 结合行为和继承特征键盘
使用最新提出的 “Option Keyboard”(OK) 方法,本研究提出了 “Successor Features Keyboard”(SFK) 和 “Categorical Successor Feature Approximator - ICLR模块化后继特征逼近器的任务知识组合
本文提出了一种新的神经网络结构 MSFA,这种结构通过模块化的方式发现了对预测有用的状态特征并学习了它们自己的预测表示形式,相比于传统的基准架构和模块化架构,MSFA 能够更好地泛化。
- 构建通用可重复使用的智能体 - 环境交互模型
本篇论文研究了如何预训练模型,并使其成为下游任务学习的可重复使用的通用架构。我们提出了一种构建代理 - 环境交互模型的方法,通过学习代理在各种任务中获得的域不变的后继特征并将其离散化为行为原型,建立了一个带有身体结构的模型。为了使模型成为下 - ICML基于乐观的线性支持和继承特征的最优策略转移
介绍了一种基于 SF 的新算法,它允许 RL 代理结合现有策略,并在任意新问题上直接识别出最优策略,无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为,且性能优于现有竞争算法。
- 使用后继特征进行多任务转移的任务重新标记
本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能,并提出了一种任务重标记的方法以实现迁移学习。
- AAAI有效地结合值预测和特征预测的广义 Bootstrap 目标方法
本文提出了一种新的更新价值函数的方法 ——η 回报混合,其将 TD 方法和 SF 方法相结合,并在表格和非线性函数逼近上进行了实验,结果表明该方法具有更高的效率和控制性能。
- IJCAI具备继承特性的选项传输和 SMDP 抽象
本文研究了强化学习中的联合时间和状态抽象,其中采用继承特征的新颖抽象机制,使得抽象选项可以在不同环境下转移并进行有效规划。
- 利用后继特征发现多样化近似最优策略
本篇研究提出了一种名为 'Diverse Successive Policies' 的新型方法,应用在强化学习中以发掘具有多样性的政策集合,进而实现探索、迁移、层级和鲁棒性等目标。该方法通过将问题形式化为一种约束马尔科夫决策过程(CMDP) - ICML基于后继特征与逆时序差分学习的示范增强学习 (PsiPhi-Learning)
该研究探讨了如何利用没有奖励标签的演示样本进行强化学习,提出了一种基于继承特征的多任务反向强化学习算法,证明了该算法在零样本迁移方面的有效性和性能上界,并且展示了在几种应用领域的具体应用。
- ICLR具备变分内在继承特征的快速任务推理
本文介绍了一种将马尔可夫决策过程和继承特征相结合的算法 (VISR),该算法通过学习可控特征对继承特征进行增强,从而实现对 Atari 游戏中奖励的快速学习和泛化能力,并在 14 个游戏中实现了人类水平的表现。
- 继承特征将模型无关和基于模型的强化学习元素相结合
本文分析了不同潜在状态空间的属性,发现了模型学习与模型自由强化学习之间的新联系,并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广,从而进一步实现模型学习和继承特征之间的联系。
- ICML使用后继特征和泛化策略改进的深度强化学习转移
本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设,实现从一组任务到另一组任务的优雅而健壮的技能迁移方法,并在一个复杂的三维环境下进行 - 通用后继特征逼近器
我们提出了一种新型的普适继承特征逼近器,利用其可进行上下文下多种策略迁移与推论,提高了强化学习算法的鲁棒性和实用性,并在一款首人称三维环境导航应用上展示了其广泛适用性。
- NIPS强化学习中的后继特征迁移
我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架,用于处理奖励函数在不同任务之间变化的情况,并且可以在不同任务之间自由地交换信息,同时具有转移策略的性能保